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Interpretable Machine Learning: On the 
Problem of Explaining Model Change 
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E-Mail: bhammer@techfak.uni-bielefeld.de 


? Institute of Informatics 
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1 Introduction 


Over the past couple of years, the idea of explainability and related notions 
such as transparency and interpretability have received increasing attention in 
artificial intelligence (AI) in general and machine learning (ML) in particular. 
This is mainly due to the ever growing number of real-world applications 
of AI technology and the increasing level of autonomy of algorithms taking 
decisions on behalf of people, and hence of the social responsibility of com- 
puter scientists developing these algorithms. Recent methods for improving 
the understandability and transparency of models produced by ML algorithms 
include both model-specific [6] as well model-agnostic approaches [12]. 


These approaches have largely focused on the explanation of static models, 
typically learned on a set of training data in a batch mode. Arguably more 
challenging is interpretability in the context of learning in non-stationary en- 
vironments, where models are learned on a continuously evolving, potentially 
unbounded stream of temporally ordered data, and incrementally updated in the 
light of newly observed training examples [5, 4]. Corresponding algorithms 
must be able to react to changes in the underlying data-generating process, 
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which is referred to as concept drift [10, 8]. Concept drift may call for incre- 
mental adaptations and sometimes also more significant modifications of the 
model — in the extreme case of an abrupt change, the learner may even decide 
to abandon the current model completely and start learning from scratch. 


Explaining model change, whether incremental or abrupt, is important in practi- 
cal applications of online learning and can be seen as a key prerequisite for 
user acceptance. In particular, it is well known that humans prefer stability 
to change [2] — they tend to rely on what is predictable from the past and are 
cognitively challenged by deviations from an established solution. Hence, a 
good explanation is required to convince a user of any need for changing the 
current model. 


Taking the stance that this explanation should focus on the change itself, that is, 
on the differences between the original and the updated model, we subsequently 
elaborate on the idea of explaining model change and identify a number of 
important problems to be addressed in this regard. In Section 3, we illustrate 
these problems for the specific example of instance-based learning on data 
streams. 


2 Explaining Model Change 


Consider a sequence of models (h,);er produced by an incremental learning 
algorithm A, where T C [0,) is a countable set of time indices, for example 
T =N. The model h; : 2 —> % is produced on the basis of the data 


2, = {iyi) bierapoy CExY 


observed by the learner till time t, where 2 and % denote the underlying in- 
stance and outcome space, respectively (cf. Fig. 1 for an illustration). The data 
generating process is characterized by a corresponding sequence of probability 
distributions (P;);er on 2 x Y, which may evolve over time (i.e., P; # P, for 
s Æ t) and, of course, is not known to the learner; thus, we assume that each 
data point (x+, yr) is generated by P, [16, 9]. 
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> time 


Figure 1: Illustration of model change (here for the case of decision trees) over the course of an 
incremental learning process. 


If data and models evolve quickly, perhaps even in realtime, it will not be 
possible to explain every single model h; to a user or human domain expert. 
Besides, individual explanations of that kind, isolated from each other, might 
be problematic for the user anyway, especially in the case of inconsistencies. 
Instead, the user might be more interested in how the model changes over the 
course of time, and in understanding the reasons for these changes. This gives 
rise to the idea of explaining model change in the sense of the “difference” 
between models, a task that appears to be more feasible, especially if changes 
are local, i.e., restricted to certain parts of a model or a local region of 7. 


More concretely, consider a scenario in which, at every time point t € T, the 
user has information about a previous model h, where to < t. This reference 
model is not necessarily up to date, because the learning process has progres- 
sed since then and produced updated models (hs) seTN(i,)- What we mean 
by explaining a model change is to inform the user about the “difference” 
A(hig hr) between the reference and the current model and making h, the new 
reference. Questions, problems, and challenges arising in this context include 
the following: 


Q1 What are suitable representations of models and model change? 


Q2 How to quantify model change, i.e., the difference A(Aiy hr) between 
models h, and h,, (distinguishing between syntactic difference referring 
to the representation of a model and semantic difference referring to the 
change of the functional dependence 2 — 2%)? 
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Q3 How to compute A(h,,,h:) efficiently, preferably in an incremental man- 
ner? 


Q4 When and how often should a model change be explained, bearing in 
mind aspects of computational complexity, but perhaps more importantly 
the cognitive capacity of the human user (who is likely to prefer stability 
over change)? 


Q5 How to complement the explanation of a change by convincing reasons 
for why it was needed? 


Obviously, suitable answers to these questions will strongly depend on the 
learning task and the type of model produced by the learning algorithm. In 
the next section, we illustrate the problems for a specifically simple example, 
namely, the case of instance-based learning on data streams. 


3 + Instance-Based Learning on Data Streams 


The notion of instance-based learning (IBL) refers to a family of machine 
learning algorithms, including memory-based learning, exemplar-based lear- 
ning, and case-based learning [13, 7], which represent a predictive model in an 
indirect way via a set of stored data. Thus, in contrast to model-based machine 
learning methods which induce a general model (theory) from the data and use 
that model for further reasoning, IBL algorithms simply store the data itself 
and defer its processing until a prediction (or some other type of query) is 
actually requested — a property which qualifies them as a lazy learning method 
[1]. Predictions are then derived by combining the information provided by 
the stored examples, typically accomplished by means of the nearest neighbor 
(NN) estimation principle [3]. In this regard, examples are also referred to as 
cases, and the stored data as the case base. 


More specifically, consider the simple example of binary classification with 
data of the form 2 = { (x, y)} , C X x Y, where X =R’ and Y = {0,1}. 
The instance space 2 is equipped with a distance measure, for example the 
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Euclidean metric. Adopting the simple nearest neighbor rule, the model hg 
induced by the data J is given by 


hg: X > Y, X> YNn(x,9) » 
where NN(x, 2) denotes the (index of the) nearest neighbor! of x in J, i.e., 
NN(x, 2) = arg min, |x —2il| ‘ 


Obviously, using hg to make predictions for new query instances x, requires 
searching for the nearest neighbor of x, in the data 2. Although the complexity 
of nearest neighbor search can be reduced by means of specific data structures 
[11], instance-based learning will typically remain more costly at prediction 
time than model-based learning. 


On the other side, an instance-based approach naturally supports an incre- 
mental mode of learning. In fact, in the data stream scenario, where new 
cases are observed continuously over the course of time, the problem of le- 
arning essentially reduces to the problem of case based editing or case based 
maintenance [15]: every time a new example (Xnew,Ynew) arrives, one needs 
to decide whether or not this example should be added to Y, and if other 
cases should perhaps be removed. Disregarding computational complexity, the 
ideal case base Y* C DU{ (Xnew, Ynew)} will maximize predictive performance 
(classification accuracy) of the induced classifier in the future. As this criterion 
cannot be used directly (future performance is difficult to anticipate, especially 
in the presence of concept drift), most methods fall back on suitable indicators 
of the usefulness of individual cases. For example, the IBLStreams approach 
[14] decides about the addition or removal of cases on the basis of the following 
criteria: 


e Temporal relevance: Recent observations are deemed potentially more 
useful and are hence preferred to older ones. 


e Spatial relevance: Examples can be redundant in the sense of not chan- 
ging the nearest neighbor classification of any query. More generally 
(and less stringently), one might consider a set of examples redundant 


! A tie breaking mechanism is needed in the case where the nearest neighbor is not unique. 
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if they are closely neighbored in the instance space and, hence, have 
a similar region of influence (Voronoi cell). In other words, a new 
example in aregion of the instance space already occupied by many other 
examples is considered less relevant than a new example in a sparsely 
covered region. 


e Consistency: An example should be removed if it seems to be inconsis- 
tent with the current concept, e.g., if its class label differs from most of 
the labels in its neighborhood. In this regard, however, it is important 
to distinguish between “noisy cases” and the possible beginning of a 
concept drift. 


Bringing the aspect of explainability into play, we can imagine a learner adop- 
ting principles of this kind to edit its case base but delaying the update. In 
other words, the learner maintains a candidate case base 9, in parallel to the 
reference case base Y,, that is used to make predictions. Thus, whenever 9; 
is modified, the learner has to decide whether to retain 2p or replace it by J. 
Let us reconsider the questions Q1—Q5 for this particular scenario. 


As for Q1, we already mentioned that models are represented indirectly in 
instance-based learning: a model ha, is represented by a set of cases (x;,y;) € 
Pa» Which can be presented to a user as prototypical examples. Seen from 
this perspective, the case base should be kept as small as possible, because 
overly large case bases will compromise interpretability. Individual predictions 
hg, (xq) are naturally “justified” by means of similarity-based or example- 
based explanations referring to local (nearest neighbor) information in the vi- 
cinity of the query x,. In the simplest case, the nearest neighbor is retrieved 
and its class label is provided as a justification: “There is a case x; that belongs 
to class y; and resembles x,, so x, is likely to belong to y; as well.” 


As for Q2, the syntactic difference between ha, and hg, is naturally defined 
in terms of the (cardinality of the) symmetric difference (2, UF) \ (2y N F) 
between Y,, and 9,. Likewise, a natural definition of the semantic difference 
is the expected discrepancy 


Alia, ha) = | lha, (x) -ha wll pede, 
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Figure 2: Illustration of a model change in the case of nearest neighbor classification. A model 
is characterized by a Voronoi tessellation. Adding a new example to the original model 
(left) leads to a change of the model (middle) and a corresponding difference (right) to 
be explained to the user. 


where p(x) is the probability (density) of observing x as a query. Because 
the latter is not known and difficult to estimate, especially in the presence of 
concept drift, one may think of 


Aha ha) = f lng (x) ho, olla a) 


as an alternative, effectively assuming a uniform distribution on 2. Obviously, 
X must be bounded in this case, which can be guaranteed through normali- 
zation, for example by mapping 2 to (0, 1]; a transformation of this kind is 
anyway advisable to assure commensurability between the different features 
(dimensions) and hence the meaningfulness of the Euclidean metric. 


Turning to Q3, the computation of (1) is an algorithmically challenging pro- 
blem, which comes down to identifying the (volume of) the discrepancy region 
in 2, viz. the set of points x for which the label of the nearest neighbor in 
Py differs from the label of the nearest neighbor in 2, (cf. Fig. 2). While an 
efficient algorithmic solution to this problem is beyond the scope of this paper, 
we mention that a simple approximation can be obtained through Monte Carlo 


sampling: 
1 « 
I / 
Alha, ‚hg,) = K L ha (xx) — hg, | ’ 
where x/ ,...,xx are sampled uniformaly at random from 2’. 


As for Q4 and Q5, the learner needs to take both A(h Py ‚hg,) and the difference 
between hg, and h Dy in terms of (estimated) usefulness into account. The 
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larger these quantities, the stronger the need for an update. The explanation of 
an update then essentially comes down to informing the user about the sym- 
metric difference between the corresponding cases bases, i.e., explaining that 
some of the previous cases have become redundant or are no longer considered 
sufficiently prototypical, while other cases have been added as new prototypes. 
To convince the user of the need for a revision of the case base, one may 
present examples of queries that are classified correctly with the new model 
but incorrectly with the old one. 


4 Conclusion 


We motivated the task of explaining the change of models in the context of 
learning in dynamic environments, where data is coming in streams and con- 
tinuously evolving over the course of time, possibly urging the learner might 
to react to concept drift. In this regard, we highlighted a number of problems 
and challenges to be addressed, and illustrated these problems for the specific 
case of instance-based learning on data streams. As a next step, we seek 
to realize these ideas on a more technical level, put them into practice, and 
evaluate them in the context of real applications. Besides, we shall study the 
problem of explaining model change also for other learning tasks and other 
model classes. 
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1 Introduction 


Undoubtedly, the increase of available data and competitive machine learning 
algorithms has boosted the popularity of data-driven modeling in energy sy- 
stems. Applications are forecasts for renewable energy generation [1, 2] and 
energy consumption [3]. Forecasts for load and generation, e. g., power, gas, 
and heat, on different temporal and spatial aggregation levels are elementary 
for sector coupling, where energy-consuming sectors are interconnected with 
the power-generating sector to address electricity storage challenges by adding 
flexibility to the power system [4]. However, the large-scale application of 
machine learning algorithms in energy systems is impaired by the need for 
expert knowledge, which covers machine learning expertise and a profound 
understanding of the application’s process. The process knowledge is required 
for the problem formalization, as well as the model validation and applica- 
tion. The machine learning skills include the processing steps of i) data pre- 
processing, ii) feature engineering, iii) algorithm selection, iv) HyperParameter 
Optimization (HPO), and possibly v) post-processing of the model’s output. 


Tailoring a model for a particular application requires selecting the data, de- 
signing various candidate models and organizing the data flow between the 
processing steps, selecting the most suitable model, and monitoring the model 
during operation — an iterative and time-consuming procedure. Automated 


Proc. 31. Workshop Computational Intelligence, Berlin, 25.-26.11.2021 11 


define task and define task and define task and define task, select define task and identify task 
select data select data select data data and template select template 
select or 
design various design various design is warned when is informed about generate data 
models models configuration application fails modifications 
space design suitable 
organize the data select the most ae pipeline 
flow between the suitable model select the most a : 
processing steps suitable model predictive 
monitor model monitoring of 
select the most operation monitor model pipeline operation 
and adaptation 


configuration design the con- 
space of template figuration space 
is searched via and optimize 
hyperparameter hyperparameters 
optimization $ 
hyperparameter select the most during the 
optimization tools select the most suitable pipeline application 
help to find a suitable pipeline configuration 
suitable pipeline configuration 
configuration predictive 
monitor pipeline monitoring of 
operation pipeline operation 
and adaptation 


suitable model operation 


monitor model 
operation 


cope with issues 


machine learning 
pipelines help 
systematizing the 
data flow 


Automation Automation Automation Automation Automation Automation 
level 0 level 1 level 2 level 3 level 4 level 5 
Manual design Design Partially Highly Fully Autonomous 

and application assistant automated automated automated system 


Figure 1: The five levels of automated forecasting, inspired by the SAE standard for autonomous 
driving of vehicles [5]. 


design and operation of machine learning aim to reduce the human effort to 
address the increasing demand for data-driven models. We define five levels of 
automation for forecasting where manual design and application reflect Au- 
tomation level 0, see Figure 1. In Automation level 1, machine learning 
pipelines [6] assist the design process, systematizing the workflow by serially 
organizing the processing steps and managing the data flow through the steps’ 
methods. Still, the pipeline requires manual tailoring by the data scientist to 
meet the specific requirements. Most published literature on energy forecasts 
range between Automation level 0 and 1, see reference [7]. Across the litera- 
ture, standard procedures have emerged that can be used to create automated 
pipeline templates for specific tasks. 


Partially automated forecasting is enabled in Automation level 2, where HPO 
tools! support the data scientist, automatically evaluating candidate models of 
a configuration space A defined by the data scientist. Still, the data scientist 
needs to analyze the optimization results, select the most suitable model, and 
monitor the model during operation. In the literature, few approaches exist 
for energy systems that we can classify as Automation level 2. A framework 


1 e, g., Hyperopt [8], SMAC [9], or NNI [10] 
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for automated HPO and forecasting algorithm selection is proposed by Rätz 
et al.[11]. Cui et al.[12], and Shahoud et al.[13] propose frameworks for 
the automated forecasting algorithm selection using meta information such 
as statistical properties of the time series and characteristics of the system. 
An approach for combining HPO and ensembling of forecasting algorithms is 
proposed by Wu et al.[14]. Maldonado et al.[15] and Valente and Maldonado 
[16] introduce embedded feature selection approaches for the Support Vector 
Regression (SVR), integrating exogenous weather information into electrical 
load forecasting. 


Automation level 3 reaches highly automated forecasting by providing pi- 
peline templates for specific tasks that include an associated configuration space 
A or a robust default configuration A. The data scientist needs to provide the 
data and select the template. Anomaly detection monitors operation and alerts 
the data scientist when suspicious model inputs or outputs are detected.” A 
highly automated framework for building energy management is proposed by 
Schachinger et al.[17], including a heuristic for the automated design of Artifi- 
cial Neural Networks (ANNs), online assessment, and scheduled re-training. 


In Automation level 4, the fully automated forecasting takes over the data 
selection. The data is either taken from a data storage assigned to the selected 
template or generated synthetically according to the template-specific task. Du- 
ring operation, the model predicts its performance and warns the data scientist 
before system borders are reached. 


Finally, Automation level 5 achieves a fully autonomous system that indepen- 
dently identifies the task, creates the model, and detects and resolves issues 
during operation. 


The introduced automation levels are not rigid — interim levels are possible. 
To the best of our knowledge, there are yet no applications for smart grids in 
Automation levels 4 and 5. The remainder of this paper is organized as follows. 
First, we present a general approach to automate the design and operation of 
forecasting models in energy systems in Section 2. Then, we describe and 


2 Current open-source Automated Machine Learning (AutoML) tools, e. g., AutoSklearn [18], 
or TPOT [19], support automated design of regression and classification models. Monitoring of 
the model operation is not provided. 
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Automated Machine Learning Pipelines for Time Series Forecasting 


pyWATTS [6] HPO extension Templates Pipeline Wizard 


Pipeline systematization Configuration | Search © Hybrid Operation @ | Data Mil Automation 
space A algorithms modeling @ || = performance "storage 

* continual * exhaustive * grey- and tracking * synthetic "pre 
"categorical * heuristic black-box "warning processing 

= conditional Bayesian =data- system Operation @ | | "feature 
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assistant automated automated automated 


Figure 2: Identified Automated Machine Learning (AutoML) approaches for smart grid appli- 
cation. The HyperParameter Optimization (HPO) extension communicates via the 
Application Programming Interface (API) with pyWATTS [6]. 


evaluate automated design algorithms for a hybrid model (autonomous level 
2.5) in Section 3. Finally, Section 4 concludes and provides an outlook on 
future research. 


2 Approach 


Although numerous methods for AutoML have been proposed in the literature, 
a toolkit tailored for forecasting in energy systems is lacking. Figure 2 shows 
a schematic overview of unexplored automation approaches and our long-term 
concept based on a taxonomy discussed in Subsection 2.1. 


The open-source Python Workflow Automation Tool for Time Series (py- 
WATTS)? [6] assists researchers in the design process, systematizing the 
workflow through a pipeline with a uniform interface for various methods 
applied to the steps of the pipeline (Automation level 1). 


For specialized tasks, the expertise of a data scientist and a process expert is 
still required, and we want to keep the human in the loop. To reduce the effort 


3 https: //github.com/KIT- IAI/pyWATTS 
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of tailored pipeline design, an HPO extension for pyWATTS [6] is required 
(Automation level 2). The extension enables defining a configuration space 
A and selecting a search algorithm, and wraps around pyWATTS. Commu- 
nication is established by an Application Communication Interface (API) of 
pyWATTS, allowing the optimization algorithm to configure pipeline para- 
meters. The report interface of pyWATTS provides data for visualization of 
the optimization progress and results. The schematic process of HPO with 
pyWATTS is outlined in Subsection 2.2. 


Recurring tasks with good generalizability, such as forecasting of Photo Voltaic 
(PV) and Wind Power (WP) generation, can be handled with default templates 
for large-scale deployment (Automation level 3). A default template contains 
a forecasting pipeline with normalized output that needs little effort to calibrate 
for new operational environments. We introduce a template for PV forecasting 
in Subsection 2.3, and a template for WP forecasting in Subsection 2.4. 


The hybrid modeling template couples two grey- or black-box models by a 
data-dependent weighting of the model outputs. In regions where the model 
input is well represented in the training data set, a sophisticated model is 
overweighted, whereas, in less representative regions, a robust model gains 
weight, as it is expected to have better extrapolation characteristics. We eva- 
luate exhaustive and Bayesian HPO for the automated design of a black-box 
hybrid model without operation monitoring (Automation level 2.5) on ten 
benchmark data sets in Section 3. 


The operation of the templates is supported by performance monitoring and 
a warning system, alerting the data scientist if any issue is detected during 
operation, such as unusually high forecasting errors. 


The vision for fully automated pipeline design for energy systems requires a 
tool specific to energy systems to integrate domain knowledge — the Pipeline 
Wizard (Automation level 4). For tasks where comprehensive training data 
is missing, the data manager automatically selects appropriate training data 
from a related data storage or synthetically generates training data. The Pi- 
peline Wizard automates the design of the forecasting pipeline and enables 
integrating specific methods for each pipeline section. The operation of the 
Pipeline Wizard is guided by predictive performance estimation to detect drifts 
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in the pipeline error at an early stage. This is required to trigger automated 
model adaption to cope with concept drifts and informs the data scientist about 
changes made. Detailed information on the planned realization of the Pipeline 
Wizard can be found in Subsection 2.5. 


2.1 Literature Review 


Review papers are fundamental for the evaluation of the state of science and 
the identification of research gaps. In the research area of AutoML, several 
literature review papers exist, e. g., [20, 21]. However, they are limited to 
regression and classification tasks. Further, AutoML methods focus on the 
problem of Combined Algorithm Selection and Hyperparameter optimization 
(CASH) [20]. For time series forecasting, pre-processing and feature engineer- 
ing are vital sections of the machine learning pipeline and require specialized 
methods, considering the temporal sequence of data points. Consequently, a re- 
view on AutoML for time series forecasting must consider time series-specific 
methods and the complete pipeline — an unaddressed issue in the present review 
studies. 


2.2  Hyperparameter Optimization Extension for pyWATTS 


Systematizing the workflow with machine learning pipelines can be achieved 
with pyWATTS [6]. For enabling external HPO tools to access the pipeline 
configuration A of pyWATTS, we target to define an API. 


The schematic process for HPO is shown in Figure 3. The data scientist 
formalizes the problem, defines the structure of the machine learning pipeline, 
and selects the data. The data needs to be split into a set for tuning and a test set. 
The tuning set is used to find a suitable pipeline configuration A. We further 
split the tuning data set and use a portion to train the pipeline and evaluate the 
performance of A on the validation set.* The test set is hold-out to evaluate the 
tuned pipeline afterward. 


4 To increase the robustness, Cross- Validation (CV) can be applied. 
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The data scientist parametrizes the pipeline sections to be optimized and defi- 
nes the configuration space A accordingly. For the definition of A, continuous, 
categorical, and conditional terms are available. While continuous terms are 
used to define the configuration space of hyperparameters, categorical terms 
are used for making decisions, such as choosing a polynomial or Radial Ba- 
sis Function (RBF) kernel of an SVR or selecting an ANN or SVR as the 
forecasting algorithm. Depending on the choice, conditional terms enable 
the definition of corresponding sub-configuration spaces Acond C A, e. g., the 
degree of the polynomial kernel if this kernel was selected.” 


The HPO tool selects a hyperparameter configuration A € A, which is assigned 
to the pipeline. pyWATTS trains and validates the pipeline and returns the 
performance Q on the validation data split, which is usually the forecasting 
error. Depending on the selected search algorithm of the HPO tool, © is 
used for the selection of the next A to be evaluated or not. We target to 
implement the open-source HPO tool Neural Network Intelligence (NND) [10], 
which allows the selection of various search algorithms, including exhaustive, 
heuristic, and Bayesian algorithms, while the definition of the configuration 
space A is standardized. 

In HPO, parallel computing is crucial for feasible run times. We may paralle- 
lize the pipeline’s training process, the computation of CV folds, the computa- 
tion of configuration trials, or combinations of these. The best parallelization 
strategy depends on the actual problem and can be determined in a preceding 
experiment. The HPO extension for pyWATTS will include the above strate- 
gies. 


The evolution of the pipeline performance during optimization and the opti- 
mization results need to be visualized to aid the data scientist in the design 
process. The evolution plot of Q may indicate the convergence of directed 
search algorithms and guide the data scientist in deciding on the termination. 
Visualization of the best performing hyperparameter configurations helps the 
developer to decide whether A was well defined. 


5 The applied definition of a configuration space A is shown in Subsection 3.2. 
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Figure 3: The schematic process of HyperParameter Optimization (HPO) with the pyWATTS 
extension: The data scientist is supported by the HPO tool in tailoring the pipeline to 
a specific problem. The HPO tool passes a hyperparameter configuration A € A via 
the Application Programming Interface (API) to pyWATTS [6] and receives the pipeline 
performance Q on the validation (val) data. 


2.3 Generalized Photovoltaics Template 


The majority of published literature on PV forecasting is limited to individual 
plants, e. g., [22, 23, 24]. They differ in terms of input features, forecasting 
horizon, and forecasting algorithms. The increasing adoption of renewable 
energies and their integration into redispatch policies leads to a rapidly growing 
demand for PV forecasting models. Therefore, we expect that designing and 
training an individual model for each PV plant is infeasible due to the immense 
design effort and the need for a sufficient amount of training data for each plant, 
which are not present for new plants. Several commercial solutions exist for 
renewable energy forecasting in the context of redispatch actions, e. g., [25, 26, 
27]. However, the applied methods are closed-source, making an evaluation in 
terms of forecasting performance and design efficiency impossible. 


We propose a generalized PV forecasting template, which uses weather fore- 
casts for the plant’s location as input data — more precisely, global radiation 
and air temperature [28]. Thus, weather forecasting is an external module for 
which we may use a commercial weather forecasting service or an individual 
weather model. Figure 4 shows the process of the generalized PV generation 
forecasting template. We generalize the model using normalized training data 
of eleven PV plants, whose alignment and orientation are either unknown or 
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Figure 4: The process of the generalized PhotoVoltaic (PV) generation forecasting template. 


ambiguous. After normalizing the generation profiles according to the peak 
power of the PV plants, we calculate the average generation profile. We train 
the generalized PV template to forecast the average normalized generation 
profile with the weather forecast as input data. After forecasting the average 
normalized profile, we re-transform the generation profile to individual plants 
in the post-processing. 


We validate this approach out-of-sample and achieve a normalized Mean Ab- 
solute Error (nMAE) of 26.3%. We may reduce the nMAE to 15.9% if we 
would use a flawless weather forecast. To reduce the forecasting error of the 
template, it seems reasonable to introduce calibration factors. The factors allow 
the calibration of the template to individual plants to compensate for different 
efficiency levels, as well as inclinations and orientations, see Figure 5. In 
addition, the PV template will support various complex forecasting models 
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Figure 5: The calibration of the generalized PhotoVoltaic (PV) generation forecasting template. 


depending on the availability of data, i. e., depending on the availability and 
amount of site-specific historical data and weather forecasts. 


The proposed generalized PV model was developed for the Stadtwerke Karls- 
ruhe Netzservice GmbH. For the automated application, we target to implement 
online performance tracking and calibration. Thereby, the model can adapt to 
decreasing efficiencies due to aging or changing environmental conditions, e. 
g., shading from new buildings in the surrounding area. Once re-calibration is 
performed, the data scientist is informed about the modification. 


2.4 Generalized Wind Power Template 


Wind turbine manufacturers provide empirical power curves, which link the 
power output of the wind turbine to the wind speed at hub height. We propose 
to use these power curves to forecast WP generation, rather than designing and 
training individual data-driven models [28]. The input of a power curve is the 
wind speed of a weather forecast, which comes from a commercial service or 
an individual weather model. As the wind speed of the weather forecast is not 
at hub height, a correction is necessary. We use the wind profile power law 


v ho % 
2. (2) ; (1) 
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Figure 6: The wind power curve and height correction with the wind profile power law for 
reference height hı and the wind speed at this height vı with different exponents @. 


where vı and v2 are the wind speeds at height hı and ha above the ground, and 
a is the empirically derived friction coefficient, depending on the topology of 
the landscape [29]. Figure 6 shows the four sections of a power curve and the 
height correction with the wind profile power law. Using the height correction, 
we are able to calibrate the power curve to the respective turbine. In most 
cases, the heights hı and h2 are known. The velocity vı is the wind speed 
of the weather forecast. In this case, we calibrate the power curve with the 
exponent a. In the literature, œ is given for different landscape topologies, 
which serve as a starting value for the calibration. The utilization of calibrated 
empirical power curves eliminates the need for extensive training data. If 
training data is available, re-calibration of œŒ is possible. In the first application, 
we determined & using grid search and selected œ such that the forecasting 
error on a validation data set becomes minimal.® 


We validate the calibrated power curve out-of-sample and achieve an nMAE of 
62.6 %. The model error seems high, but it is mainly related to the forecasting 
accuracy of the wind speed. A flawless forecast of the wind speed reduces the 
nMAE to 19.6%. The wind speed forecast, in particular, has difficulty pre- 
dicting single wind gusts, justifying the large discrepancy between the nMAE 
obtained with weather forecasts and flawless forecasts. During the compilation 
of the validation data set, we noticed anomalies due to the manual shutdown of 
the wind turbines. To clean the data set, we used a heuristic method that takes 


6 If apart from &, h or ha is unknown, calibration is still possible but the effort increases. 
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advantage of the fact that there are two turbines in the immediate neighborhood 
and searches for deviating outputs between the turbines. In further work, we 
target to develop a universal anomaly detection method that also works for 
individual turbines. 


As the PV template (Subsection 2.3), the WP template was developed for 
the Stadtwerke Karlsruhe Netzservice GmbH. We aim to implement online 
performance tracking and calibration, as well as data-dependent complexity of 
the forecasting model. In this way, the model may adapt to changing inflow 
characteristics, e. g., caused by transformations of the landscape topology. 
Re-calibration triggers the information of the data scientist about the model 
adaptation. 


2.5 Pipeline Wizard 


The objective of the Pipeline Wizard is the automated forecasting pipeline 
design and large-scale application for consumption data in energy systems, 
including electricity, gas, and heat. For these systems, sufficient training data 
is not always available. However, we may use data from related systems for 
training with similar environmental conditions, unit size, and utilization. The 
related data either can be taken from a data warehouse or generated synt- 
hetically. In order to select or generate suitable data, meta information is 
necessary that describe the behavior of the system. By eliminating the need for 
measurement data of the system, forecasting models can be applied widely. 


Recent AutoML tools focus on the CASH problem for classification and re- 
gression tasks. Time series forecasting requires specialized methods for pre- 
processing and feature engineering that consider the temporal sequence of the 
data. We target to provide time series-specific methods for each section of 
the pipeline, including pre-processing, feature engineering, HPO, algorithm 
selection, and ensembling. Apart from these default methods, integrating spe- 
cialized methods for particular system domains is possible, which are then ta- 
ken into account in the automated design process, e. g., copy-paste imputation 
for energy time series to handle anomalies [30] or the engineering of energy- 
specific meta-features [12]. 


22 Proc. 31. Workshop Computational Intelligence, Berlin, 25.-26.11.2021 


Concept drifts pose a major challenge in the application of forecasting models. 
A concept drift involves the change of the target variable’s statistical properties 
[31]. Reasons for concept drifts are manifold: a change of utilization, changing 
exogenous influences affecting the system, or structural changes such as unit 
size or system boundaries. The changes may occur suddenly, incrementally, or 
gradually and may reoccur [32]. At the same time, the forecasting accuracy 
of a model decreases if the trained relationships between input and output 
variables no longer match the system’s behavior. In this situation, adapting 
the forecasting model to the changed system is necessary [31]. Different adap- 
tation strategies are possible. The most straightforward strategy is re-training 
the forecasting model with the data accumulated after the concept drift. An 
improvement can be achieved if not only the model parameters but also its 
structure and hyperparameters are tuned. Celik and Vanschoren [33] evaluated 
six adaptation and tuning strategies on evolving data for a classification task. 
We target to tailor these strategies to time series forecasting and evaluate their 
effectiveness. 


3 Automated Hybrid Modeling 


Robust models are necessary for the representation of participants in smart 
grids, e. g., the thermal dynamics of buildings or the characteristics of Electric 
Vehicle (EV) batteries [34]. Data-driven models can achieve high predictive 
accuracy if the input variables are in familiar range, thus, similar to the training 
data set (interpolation). The prediction accuracy declines in extrapolation 
areas [35], i. e., if the model makes an inference about the system’s behavior 
in a new range of variables [36]. Bohland et al.[37] propose a hybrid model for 
local adaption of the model complexity to interpolation and extrapolation. The 
hybrid model creates a hull around the interpolation areas using a fuzzy mo- 
deled One-Class Support Vector Machine (1C-SVM). The fuzzified hull serves 
as a weighting function for the extrapolation and the interpolation model. 
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3.1 Automated Design 


The design algorithm for black-box modeling automatically determines a suita- 
ble combination of the interpolation and the extrapolation model (sub-models), 
as well as the 1C-SVM. The data set is split into training, validation, and 
test data. The algorithm creates candidate hybrid models using the training 
data and estimates their performance afterward with the validation data. After 
selecting the best performing hybrid model, it is retrained using the training 
and validation data (tuning data), and the performance is assessed with the test 
data. 


Grid Search The most elementary algorithm for optimizing the configuration 
A of a model is grid search, where a finite set of candidate configurations is 
defined and exhaustively evaluated. The configuration space A consists of sub- 
models of various prediction algorithms, incorporating the MultiLayer Percep- 
tron (MLP), the SVR, Multivariate Adaptive Regression Splines (MARS) [38], 
and the LOcal LInear MOdel Tree (LOLIMOT) [39], and the 1C-SVM; each 
prediction and decision algorithm has a finite space of candidate hyperpara- 
meters. The algorithm of Bohland et al.[37] creates the candidate models and 
gathers all trained sub-models and 1C-SVMs in the model pool. Then, each 
possible combination of sub-models and 1C-SVMs of the pool is evaluated on 
the validation data, and the A with the lowest MAE is selected. 


Bayesian Optimization Rather than evaluating a finite search grid, Bayesian 
optimization explores and exploits the configuration space A. The optimiza- 
tion scheme uses a probabilistic surrogate model to approximate the objective 
function 2, mapping the model’s performance Q over A. In each iteration, the 
surrogate model is updated, and the optimization scheme uses an acquisition 
function to decide on the next hyperparameter configuration A € A to be obser- 
ved [40]. To apply Bayesian optimization towards automated hybrid modeling, 
we need to define the configuration space A. 
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3.2 Evaluation 


We evaluate the automated design of the hybrid model as in reference [37] on 
ten data sets and compare grid search to Bayesian optimization. 


Experimental Setup In the initial proposal of the automated hybrid model, 
Böhland et al.[37] showed that it performs significantly better than standard 
regression models on nine out of ten benchmark data sets. In this experiment, 
we compare HPO algorithms for automated model design, i. e., Bayesian op- 
timization with exhaustive grid search. We evaluate which HPO algorithm 
achieves lower prediction errors and requires less computation time. 


For grid search, we adopt the configuration space A of reference [37] with 
the 1C-SVM implementation of the Scikit-learn library’ [41] (RBF kernel; 
o =0.01,0.025,0.05,0.1,0.2,...,1,1.5,10; € = 0.001)8. Since the LOLIMOT 
model is not available in the Python programming language [42], we omit 
this model type but added Random Forest (RF), Gradient Boosting Machine 
(GBM), and Linear Regression (LR): 


© MLP (Neurons = 2,3,---,17,30,50), 


SVR (RBF kernel; o = 0.1,0.2,...,1,1.2,1.5,2; C = 100; € = 0.001)8, 


© GBM (Nestimators = 90, 100, . . . , 150,200, 300, . . . , 1000), 


© RF (Nestimators = 90, 100, . . . , 150,200, 300, . . . , 1000), 
e MARS, 


e LR 


We implemented the automated design process in Python [42] and adapted the 
grid search from the implementation of the Scikit-learn library’ [41]. SVR, RF, 
and LR are based on the Scikit-learn library as well. The GBM implementation 
is based on the XGBoost library? [43], and MARS relies on the Py-earth 
library! [44]. For Bayesian optimization, we apply the NNI toolkit!! [10] 


7 https://github.com/scikit-learn/scikit-learn 

8 some references denote £ as v 

° https://github.com/dmlc/xgboost 
10 nttps://github.com/scikit-learn-contrib/py-earth 
I nttps://github.com/microsoft/nni 
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with the Tree Parzen Estimator (TPE) optimizer [8]. The configuration space A 
consist of three categorical hyperparameters — the choice for the interpolation, 
extrapolation, and decision algorithm. For the interpolation and the extrapo- 
lation, the optimizer may choose the above-listed prediction algorithms. If an 
algorithm is chosen, the corresponding conditional configuration space Acond C 
A with continuous values and the limits corresponding to the respective mi- 
nimum and maximum values of the grid search applies. For the decision 
algorithm, only the 1C-SVM algorithm with RBF kernel can be chosen with 
continuous hyperparameters and limits equivalent to the grid search. 


We evaluate the automated design process on ten data sets and split the data 
randomly into training data (60 %), validation data (20%), and test data (20%). 
The test data is initially held out. With the remaining data, we perform a four- 
fold CV for each candidate configuration A and calculate the mean MAE over 
the splits. Based on the mean MAE, the HPO algorithm determines the most 
suitable A. Afterward, the hybrid model is re-fitted with the chosen A using 
the train and validation data (tuning data) and tested on the hold-out test data. 
We repeat this process five times for each data set with different random seeds 
for splitting the data. 


Results We evaluate the performance of grid search and Bayesian optimi- 
zation by comparing the MAE of the chosen configuration A on the hold-out 
test data and the computation times. Table 1 shows the experimental results 
regarding the prediction error MAE and the computing time. 


The comparison of the MAE on the hold-out test data shows that no HPO 
algorithm has a significant advantage in terms of prediction errors. The advan- 
tage of Bayesian optimization is that only the boundaries of the configuration 
space A have to be defined. Thus, configurations between the points of the 
grid search are considered, and a reasonable definition of A depends less on 
the skillful definition of candidates by the data scientist. 


Grid search shows a clear advantage in terms of computing time. The advan- 
tage can be justified with the re-usability of already trained sub-models. For 
searching the configuration space A of the hybrid model, it is sufficient to fit the 
grid points of each prediction algorithm individually and cache the predictions 
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Table 1: Prediction error and computation time comparison of grid search and Bayesian 
optimization for the automated design of the hybrid model. 


Data Set Prediction Error MAE [1073] Computation Time [s] 

grid search Bayesian optimization grid search Bayesian optimization 
Abalone 52.98 52.81 111 3832 
Airfoil 27.70 26.72 51 2112 
Boston 49.87 50.22 39 1093 
California 64.99 64.78 607 12637 
Computer 16.85 16.56 387 7396 
Concrete 37.79 36.25 48 1176 
Ailerons 26.28 28.29 173 6049 
Elevators 40.50 40.29 261 8040 
Redwine 68.71 69.81 144 3541 


Whitewine 82.82 84.15 66 2091 


on the validation data. Then, we may calculate the prediction error for all 
possible A € A combinations of the interpolator, extrapolator, and decider by 
combining the cached results (similar to dynamic programming). Thereby, the 
number of configurations to be assessed does not increase exponentially with 
the points of the grid search but linearly, resulting in NuLp + Nsvr + Nmars + 
Nop + Nev + Mir + Nic-svm = 79 evaluations. In Bayesian optimization, 
in contrast, we define the number of candidate configurations (trials) to be 
evaluated Mtriais = 500, and the optimization selects candidates based on the 
performance of previous trials (directed search). 


Figure 7 shows the evolution of the mean MAE on the validation splits of 
the computer data set using Bayesian optimization and grid search. The 95 % 
confidence interval was determined over the five loops based on the Student’s 
t-distribution. The progression of the Bayesian optimization converges well 
before the 500" trial. Thus, there is the potential of terminating the Bayesian 
optimization prematurely as soon as we are satisfied with the result. In contrast, 
the grid search cannot be terminated prematurely, as otherwise, areas of the 
configuration space A would not have been examined, and we would obtain 
an incomplete model. Therefore, it is reasonable to implement convergence 
regularization in future work that terminates the optimization automatically if 
no further improvement is expected (early stopping). 
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Figure 7: Development of the MAE on the validation splits of the computer data set using Bayesian 
optimization and grid search. The HPO was repeated five times with random splits. The 
red line reflects the mean progress over the independent runs, and the light red area the 
95 % confidence interval, determined based on the Student’s t-distribution. 


In future work, we plan to integrate the hybrid model into pyWATTS [6] with 
the grid search. The convergence regularization will be developed for the 
pyWATTS HPO extension (see Subsection 2.2), for HPO problems with ex- 
ponential complexity. 

In addition to the application as an EV battery model for representing the 
electrical behavior shown in reference [34], we target to model thermal buil- 
ding dynamics, using black-box models for interpolation and grey-box models 
(thermal-electrical analogy) for extrapolation. In this way, we target to design 
a robust default template for thermal building modeling, which can be used for 
demand side management, e. g., using model predictive control. 


4 Conclusion and Outlook 


The transformation of a fossil-based to a sustainable energy system requires 
the large-scale application of machine learning algorithms. For satisfying the 
rapidly growing demand for time series forecasts, we need to automate the 
design and application. We proposed five automation levels, where Automation 
level O is manual design and application and Automation level 5 is an autono- 
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mous system. For Automation levels 1, 2, 3, and 4, we introduced forecasting 
approaches for smart grid applications and described their concepts. 


For one of the approaches — the hybrid model — we evaluated two HyperPara- 
meter Optimization (HPO) algorithms for the automated design (Automation 
level 2.5). The hybrid model weights the results of two models depending on 
whether the input values were represented in the training data set or not. In 
this way, a robust model is used for extrapolation and a sophisticated model 
for interpolation. The evaluation shows an advantage of grid search in terms of 
computation time if we re-use already trained models. Regarding the prediction 
error, there is no clear advantage of grid search or Bayesian optimization. 


In future work, a performance tracking and warning system could monitor 
the templates’ operation and alert the data scientist if degrading forecasting 
performance is detected. We target to improve the PhotoVoltaic (PV) and 
the Wind Power (WP) forecasting templates by online calibration (Automation 
level 3). More precisely, the PV template will be calibrated for individual plant 
efficiencies, orientations, and alignments, and the WP template will include 
HPO for the friction coefficient &. For Automation level 4, we develop the 
Pipeline Wizard, automating the design of the complete forecasting pipeline. 
The Pipeline Wizard includes automated data selection or generation, online 
performance prediction, and adaption strategies for concept drifts. In the long 
view, probabilistic interval forecasts will replace point forecasts, e. g., refe- 
rence [45]. 


We plan to integrate the proposed automation approaches in the Energy Lab 
2.0 [46], a real-world research environment for exploring intelligent coupling 
of various energy generation, storage, and supply capabilities. The approaches 
for each automation level help to solve forecasting tasks according to individual 
complexity and requirements. 
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Abstract 


A touch-evoked response of zebrafish larvae provides information of the me- 
chanism of the gene functional expressions. Recently, an automated system has 
been developed for precise and repeated touch-response experimentation with 
minor human intervention. The data collected by the system are analyzed with 
regard to an automated quantification pipeline for scientific conclusions, in- 
cluding five quantification criteria: latency time, C-Bend curvature maximum, 
C-Bend peak time, response time, and moving distance. To quantify these 
criteria, we propose a larva tracking based automatic quantification pipeline 
by using a U-Net for initialization of tracking, a particle filter as tracking 
strategy, and region growing for the segmentation of larvae. Experimental 
data with different treatments are analyzed by using the proposed quantification 
platform for demonstration, and the result proves that this platform can gene- 
rate comparable touch-response behavior quantification readouts in an efficient 
and automatic way. This platform provides an alternative to automatically 
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screening the drugs for knowledge discovery according to the pattern of the 
touch-response behaviors of zebrafish larvae mutated by chemicals. 


1 Introduction 


Zebrafish larvae are commonly used animal models for the organism-based 
screenings due to small size, high fecundity and short reproductive cycle [8]. 
Their specific (repeatedly and obvious) behaviors indicate certain functional 
mechanisms of mutants by the treatments [1, 7], making it possible to do the 
large-scale high-throughput screening of chemicals or drugs. Automated ex- 
perimental systems to acquire the data of these behaviors have been developed 
so far [4, 5, 6, 7, 20], so the automated high-throughput quantification of the 
data from the systems is also becoming in a higher demand, as manual quan- 
tification is time-consuming and not statistically comparable. In particular, the 
touch-response experimental data (videos) are in a high frame rate [2, 19], so 
the automated quantification is more essential in this case. During the touch- 
evoked response of zebrafish larvae, the larvae form into a series of C-Bends 
and swim away after touching, and it is important to quantify the time that 
the larvae take to respond as well as the strength of the response (such as the 
latency time, C-Bend curvature maximum, C-Bend peak time, response time, 
and moving distance). However, it is difficult to generate a precise number 
of C-Bend curvature and moving distance manually [20]. Furthermore, the 
operators cannot keep the same criteria all the time for each video, as the 
video has more than ten thousand frames in average. Thus, we proposed a 
touch-response quantification pipeline for single zebrafish larva in [2], but as 
for the multi-larvae case, we face more challenges: i) multiple larvae need to 
be tracked and segmented at the same time; ii) which larva is touched should 
be decided; iii) the quantification of multiple larvae has higher computational 
costs. To solve these problems, we optimized the pipeline to an automatically 
customized touch-response quantification platform in this work. 


In this proposed quantification platform of touch-response experimental data, 
the tracking procedure plays the vital role, especially for the tracking of mul- 
tiple larvae [19]. Recently, machine learning or deep learning based tracking 
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methods have emerged to promote the accuracy of the tracking procedure 
[3, 17], and many previous works focused on the tracking and segmentation 
of single or multiple adult zebrafish [9, 10, 11, 15]. To make the best of 
the deep learning methods, we used a U-Net based segmentation method for 
the initialization of tracking. However, those high-computational methods are 
difficult to be used in the tracking procedure of our high-frame-rate videos. 
In order to make the quantification pipeline much less complex, we proposed 
a optical flow based needle tracking procedure and particle filter based lar- 
vae tracking procedure. Besides, the segmentation for each larva is also of 
importance to the analysis of the movements. In [16], a Gaussian Mixture 
Model (GMM) based segmentation is used to detect the moving objects, and 
the noise is filtered according to the region size by using a global Otsu method. 
However, in our platform, considering global information makes the proce- 
dure more computational expensive. Therefore, a local region growing based 
segmentation method is used for each larva according to the result of tracking 
procedure. Based on the tracking and segmentation results, we proposed a 
pipeline to find the touched larvae and generate the behavior quantification 
according to the proposed experiment criteria. In order to test the performance 
of the proposed platform, we conducted six sets of experiments with different 
drugs and analyzed the experiment criteria and detected errors (failure cases). 
With the verification of the experiment results, this platform shows a high 
efficiency for analyzing the touch-response experimental data, and releases the 
operators. The methods used in this platform can make contributions to the 
application in the field of video analysis. As well, the platform can be also 
transformed to the quantification pipeline of other organisms (like medaka) 
and can be also added with more quantification criteria. 


Organization of the article is as follows. Section 3 describes the tracking 
procedures, local segmentation for the larvae and the quantification pipeline 
of the proposed platform. Section 3 provides the setup of the experiments, the 
quantification criteria and results as well as the discussion. According to the 
above results, conclusions are drawn in Section 4. 
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2 Methodology 


As the videos collected by the automated system are in a high frame rate 
(1000 frames per second), an efficient tracking procedure is required. The 
initial positions obtained from the first frame is vital to accuracy of the whole 
tracking procedure, so a U-Net based segmentation (Step 1 in Fig. 1) is used to 
generate the binarization of the larvae and the needle for the initialization of the 
tracking. However, we cannot use the U-Net for the tracking of the following 
frames, as deep learning inference is computationally expensive, causing the 
high temporal costs for one single video. Therefore, optical flow (Step 2 in 
Fig. 1) is used for the tracking of the needle, and particle filter (Step 2 ~ 4 in 
Fig. 1) is used for the predictions of the positions of the larvae in the following 
frames. Based on the predictions, region growing (Step 5 in Fig. 1) is applied 
for the local segmentation of each larva. The output of the tracking procedure 
includes images patches of each larva as well as the positions of the needle and 
the larva in all frames. 


2.1 U-Net for initialization 


Ahead of the tracking procedure, the positions of the larvae need to be initi- 
alized, which is usually done manually, but in order to make this procedure 
fully automated, we used a U-Net [18] to do the segmentation of the first frame 
of the video for initialization. The U-Net mainly consists of down-sampling 
blocks - two convolutional layers (Conv) and one max pooling (Max-pool) 
- for feature extraction and up-sampling blocks - one deconvolutional layer 
(deConv) and two convolutional layers. As shown in Step | in Fig. 1, the U-Net 
based segmentation inputs the image within the well area cropped by Hough 
transform and generates two binary images with larvae and needle, followed 
by the needle tracking and larva tracking strategies respectively. 
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Figure 1: Overall architecture of the proposed tracking procedure. Step 1: Network architecture 
of a U-Net used to segment the larvae and needle for initialization. The outputs are two 
binary images for the larvae and needle respectively. Step 2: Two tracking strategies 
for the needle and larvae respectively. The optical flow tracking method is used for 
the positions of the needle as it moves slightly between two frames. For the particle 
filter based larva tracking method, particles are cast in this step within the segmented 
larvae areas. Step 3: According to the position of each particle, the image difference 
between two frames (with an example of the image difference between Frame #3693 and 
Frame #3694) is observed for the binary probability of the corresponding particle. Step 
4: The particles with binary probability 0 are re-cast around the larvae center, details 
in Section 2.3. Step 5: For each larva, the segmentation is achieved by local region 
growing, discussed in Section 2.4. The outputs of the tracking contain the image patches 
of all larvae as well as the series of the centers of the larvae and the needle. 


2.2 Optical flow based needle tracking 


In the optical flow tracking procedure, the tracking target is assumed to move 
slightly between two frames [12, 13], and the movement of the needle meets 
this requirement. Thus, the optical flow based needle tracking strategy is used. 
Let {X7,Y atj} be the old needle (n) center at frame tj, so the new needle 
center at frame tj+1, {X FH VY pet j+1}, is estimated according to the gradients 
as described in [2]. 


2.3 Particle filter based larva tracking 


For the tracking procedure of the larvae, optical flow does not meet the assump- 
tion as the larvae move significantly, so we used a particle filter based tracking 
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strategy. Particle filter, not like Kalman filter, has no constrained assumptions 
[3], and the tracking result is dependent on the score of each particle cast 
randomly according to the prior knowledge (the previous positions of the larvae 
in our case). As shown in Step 2 in Fig. 1, the particles (with number N,) are 
cast randomly within the segments of each larva to do the following tracking 
procedure. Defined that iP! = {li yht j} be the particle i at position { ixi yi} 
of frame t; for larva /, the binary probability b{ Xi Vist j} indicates whether 
the /-th larva exists, shortened as ibl. The new center of the larva / at frame 


tj+1 (xh, Kuna) is estimated as follows 


Kir = N, Vs Dia), Yl = N, Yo) 1541) (1) 
P i= P i=l 


where ib) +1 is the binary probability at {ix} yi} of the /th larva in frame 
tj41. The binary probability is computed according to the image difference 
as follows 


l Poad Il 
J dis Frl) Fler) (2) 


where id! +1 1s the pixel difference at { Xj i yi} between frame t;, , and frame tj, 
Fir (x)siy4) is the pixel value at {u} of frame tj+1, Fila) of frame 
tj, and Ty is the threshold for the image difference for the moving pixels. The 
0 are re-cast in a Gaussian distribution as follows 


. SA I = 
particles iP; with ;b + = 


N Lo Lo l 
Pi = {iY jo tj Tran ~ AN (rn) 


x o 0 (3) 
l +1 x 
iael laele | 
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where iP; 1 is the updated (re-cast) particle at { ix, ppi yj 1} of the new frame 
Lit, hi 1 is the new center of the larva estimated by (1), and X is the heuristic 
variance for the range of re-casting the particles. The retained particles are 
used for storing the previous information of the positions of the larvae, and 
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Figure 2: The principle of region growing based local segmentation of the larva. Region growing 
begins with an initialized point and grows according to the adjacent pixel values until no 


more new pixels meet the a, details in Section 2.4. The adjacent points of py 


are denoted as pn”) „eg. ph =D is the top left point of px. The pixels in green are the 


next centers for iterations with the adjacent points in orange, and the pixels that meet the 
requirements are labeled as white and otherwise as blue. 


the re-cast particles are used for searching for new potential positions of the 
larvae. 


2.4 Region growing for local segmentation 


The particle filter might lose the larva as it only considers the moving pixels. 
Thus, the segment for each larva is required for a more precise center of the 
larvae as well as for the analysis of the behaviors. We used a region growing to 
do the local segmentation for each larva, as shown in Fig. 2. The region starts 
at the estimated center (x! TRI Yat) of the larva (the initialized point) and 
label each pixel in a 3 x 3 adjacent area according to the pixel value and image 
gradient. Assumed that py = {Pkx, Pry} is the center of the adjacent area in 
each iteration (starting iteration: po = {Xj+1,Yj+1}), the label of each adjacent 


point po) = De, x = —1,0,+1} is calculated as 


1 felo Ph”) 27, 


Io = and T; < f(p* a )< Th, = 
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where L(p**?) is the labelled (segmented) result for the position pw) at k-th 


iteration, pO.” pe”) is the image gradient at pe, ion) is the 
pixel value at pe”, and T, Tı, T, are the heuristic thresholds chosen for the 
binarization. The position pw”) labelled as 1 is the next center of the adjacent 
area at iteration k + 1 for the growing of the region, until all new centers are 
labelled as 0. As the larva area is connected with other objects or noise, the 
iteration may not stop even if the area covers the larva in a larger scale. Thus, 
we set another size threshold (7;) to end the iterations. As the growing of the 
regions only occurs in the local areas of the larvae, the computation is much 
faster than the global binarization methods or deep learning based methods 


[15, 16]. 


2.5 Quantification pipeline based on tracking procedure 


When zebrafish larvae are touched, they exhibit characteristic (or specific) 
behaviors [1]. In this work, five typical quantification indices are considered, 
three of which were considered in a previous work (latency time tı, response 
time t,, and moving distance dm) [2]. As for the quantification of the response 
strength, in this work, we consider to use the maximum of the C-Bend curva- 
ture that the larvae shaped (C-Bend curvature maximum, c,,), as the average 
cannot quantify the peak value of the response strength. Additionally, we 
propose to use another parameter, C-Bend peak time (tep), to describe the time 
that the larvae took to have the peak response strength. 


The tracking procedure for the needle and larvae outputs: i) sets of image 
patches for each larva in each frame; ii) the centers of the larvae; iii) the 
centers of the needle in each frame, shown in Fig. 1 and Fig. 3. The touched 
larva is decided by comparing the final position (at tf) of the needle X, and 
the initialized positions of the larvae DE In order to compute t1, t2, 
tz, and t4, another two thresholds are defined: i) Tą; for the distance between 
the needle and the larva deciding the touch is successfully applied; ii) Tm for 
the movement of the larvae, with details in Fig. 3. According to the time 
points above, the quantification indices are computed as follows: i) the latency 
time is computed as t; = t — tı; ii) the C-Bend peak time is computed as 
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Figure 3: The pipeline for behavior quantification according to the results of tracking procedure. 
According to the output of the tracking procedure, important time points (tı: touch 
applied, t2: response begins, #3: the time point of maximum C-Bend curvature, 
t4: response stops) are searched: i) the distance between lth larva and the needle is 
compared from t = 0 until the time point with the distance less than 7,,,, as t1; ii) from t1, 
the distance of the /th larva between two frames (X and X 1 +1) is computed until the time 
point over Tn, as t2; iii) the time point with maximum C-Bend curvature is t3; iv) from 
tp back to the previous time points, the positions of the ¿th larva between two frames (X 


and Xi) are compared until the time point over Tn, as t4. More details for each index 
are described in Section 2.5 


tcp = t3 — ty; iii) the response time is computed as t, = t4 — t2; iv) from t to 
t4, the moving distance dm and C-Bend curvatures Cm of the /-th larva in each 


frame are computed according to the corresponding image patches (methods 
described in [2]). 


3 Experiments and results 


3.1 Experiment setup 


In order to test the performance of the proposed platform on the experimental 
data from the automated touch-response system [2], we quantified six sets of 
experimental data (as Table 1 shows): videos of wild type (without treatment), 
larvae with Dimethyl sulfoxid (DMSO)!, as well as larvae treated by Diazepam 
(Dia) to reduce the movements [14], Isoproterenol hydrochloride (Zso) with 


! As each treatment is prepared with DMSO, the experiments on the larvae with only DMSO are 
also conducted as controls. 
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Table 1: The experimental data (number of videos) to be quantified. 


: Number 

Type Treatment Concentration Age of viðeos 
Wild Fish water - 73 hpf 24 
DMSO Dimethyl sulfoxide 1% 73 hpf 27 
Dia Diazepam 100 umol/mL 73 hpf 38 

Isoprenaline 

Iso hydrechleride 100 umol/mL 73 hpf 30 
Caffi Caffeine 100 umol/mL 73 hpf 24 
Nahe RS lee 100 umol/mL 73hpf 30 


hydroxamic acid 


unknown effects, Caffeine (Caffi) for also reduction of movements [14], and 
Suberoylanilide hydroxamic acid (Saha) with unknown effects, respectively. 
Each treatment is in a concentration of 100 umol/mL for the demonstration. 
The larvae were dechorionated and treated at 27 hpf, and the experiments were 
conducted at 73 hpf, as visualized in Table 1. 


The parameters used for the quantification platform are outlined in Table 2. The 
average size of the larvae is 162.66 pixels, computed by 320 images 
(4 larvae in each), so the threshold (7,) is set as 200 pixels for safety. The 
other parameters are selected heuristically. 


3.2 Experiment criteria 


The experiment criteria (quantification indices) are discussed in Section 2.5 to 
verify whether the proposed quantification platform can generate correspon- 
ding results to the assumptions of the effects of the treatments, as described in 
Section 3.1. Besides, the detected errors of the quantification pipeline should 
also be analyzed, e.g. the inaccuracy of the segmentation method and missing 
objects by the tracking procedure. As well, the videos collected by the auto- 
mated system contain some unquantifiable ones, such as the larvae were not 
touched, and the larvae or needle might not be detected. Thus, we also aim 
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Table 2: The parameters used for the proposed quantification platform. 


Symbol Quantity Value 
Np the number of the particles 50 
T the threshold for 10 


the image difference (pixels) 

the standard deviation for the range of 
re-casting the particles (pixels) 

the threshold for the image gradient 

in local segmentation (pixels) 

the lower threshold for the binarization 
in local segmentation (pixels) 

the higher threshold for the binarization 
in local segmentation (pixels) 

the size threshold for 

the larvae (pixels) 

the threshold for the distance 

between the larva and needle (pixels) 
the threshold for 

the movement of the larvae 


to give the analysis of detected errors by using the number of videos with no 
larvae touched (#NT) as well as those with failure of quantification (#QF), 
with details in Section 5. 


3.3 Results 


We applied our quantification pipeline (described in Section 2.5) to the expe- 
rimental data outlined in Table 1 and visualized the quantification results for 
the touched larvae in Fig. 4, including latency time (t;), C-Bend curvature 
maximum (cm), C-Bend curvature peak time (tep), response time (f,), and mo- 
ving distance (dm). The five quantification indices give a consistent output: 
The larvae with longer latency time have lower response strength (lower cm), 
shorter time to shape the C-Bend peak (lower tep), and less response duration 
(lower t, and dm), examples seen from the cases of Dia and Caf fi. This 
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Figure 4: Five quantification indices of six experiment cases (wild, DMSO, Dia, Iso, Caf fi, and 
Saha) generated by the quantification pipeline in Section 2.5, including latency time, 
C-Bend curvature maximum, C-Bend curvature peak time, response time, and moving 
distance. 


result can also prove that the larvae under the treatments of Dia and Caf fi 
respond less compared with the Wild and DMSO, verifying the assumptions 
in Section 3.1. Additionally, the treatment /so can not change the touch- 
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response behaviors of the larvae significantly as the five indices show similar 
results to the Wild type. As for the treatment Saha, the result is similar to the 
case of DMSO, verifying that this treatment cannot change the touch response 
of zebrafish larvae too much. The results above verified that our proposed 
platform can generate comparable quantification according to the experimental 
data acquired by the automated touch-response system and is also potentially 
useful for drug screening. 


Despite the useful results in Fig. 4, some problems still exist apparently, like 
the detected errors of the proposed platform. As mentioned in Section 3.2, 
among the videos collected (#7), we first compared the manually screened 
#NT, (the ground-truth number of the videos with no larvae touched) with 
the numbers output from the proposed quantification platform (#NT,), shown 
in Table 3, with the percentage (Enr = |#NT, — #NT,|/#T). As well, we 
also give the number of failure of quantification (#OF) with the percentage 
(Eor = #QF /|#T — #NT,|). Our proposed platform can with more than 90% 
in average find the larvae not touched. Besides, no results were generated 
from around 10% of valid videos (#T — #NT,) by our system. In addition, 
we assume that the larvae under the treatment of Dia scarcely have response, 
so the output of latency time is expected to be infinite, and the other indices 
are expected to be 0. However, the system cannot generate infinite number, but 
from Fig. 4a, the latency time is the highest which is still useful to be compared 
with the other cases. Furthermore, the results in Fig. 4b-4e are not exactly 
zero, caused by following reasons: i) Some larvae still have slight response; 
ii) The movements of the needle might push the larvae away (fake response); 
ii) The tracking procedure generates the movements of the larvae because of 
the slight environment changes or other inaccuracy. Nonetheless, the results 
of Fig. 4b-4e are still comparable to the other cases, and in other words, our 
proposed system verified our assumption on treatment Dia even with slight 
variance. Finally, the proposed platform can achieve the quantification in a 
higher efficiency with in average 63 ms per frame on CPU, compared with 
using U-Net for the tracking procedure (in average 2.60 s per frame on CPU). 
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Table 3: The analysis of the detected errors (failure cases) of the proposed platform. 


Type #T #NT, #NT, ENT #OF Eor 


Wild 24 4 7 12.5% 1 5% 
DMSO 27 3 8 18.5% 0 0% 
Dia 38 4 1 7.9% 8 23.5% 
Iso 30 6 6 0% 2 8.3% 
Caffi 24 7 5 8.3% 3 17.6% 
Saha 30 5 6 3.3% 2 8% 
Average - - - 8.4% - 10.4% 


3.4 Discussion 


The results in Section 5 verified that our proposed platform can work as an 
automated quantification tool for the multi-larvae touch-response experimental 
data in a high frame rate. This platform has following advantageous strategies: 
i) The decision of tı as well as the touched larva is decided by the last point of 
the needle and the initialized point of the larvae, as the local segmentation of 
the larva during tracking procedure is not as accurate as the initialized segmen- 
tation by the U-Net; ii) The movement of the larvae is decided by the change 
of each particle instead of the change of the larva center, as the centers of the 
larvae might change slightly but constantly during the tracking procedure, even 
when the larvae do not actually move; iii) The decision of t4 is done from the 
last frame to the previous, since the larva might move slowly (no significant 
changes of pixels) for a moment and start moving strongly again; iv) The 
design of the quantification pipeline makes it possible to consider the global 
information for a more reasonable quantification result, as the quantification is 
achieved after the tracking task of all frames. 


However, some drawbacks are still needed to consider carefully when the users 
apply this platform or pipeline to the customized data. The tracking proce- 
dure and local segmentation of the larvae are the keys for this quantification 
platform, but they cannot be guaranteed for a good result in following cases: 
i) the larvae overlap with each other when moving; ii) the well edge area has 
similar brightness with the larvae; iii) the needle overlaps with the larvae. 
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Nevertheless, these problems can be solved by statistical analysis of a large 
set of data, so our proposed platform is vital in such case. 


4 Conclusion 


In this work, we introduced a machine learning based quantification platform 
for touch response of zebrafish larvae, which can generate five quantification 
indices (latency time, C-Bend curvature maximum, C-Bend curvature peak 
time, response time, and moving distance) automatically without human in- 
tervention. This platform uses an automated quantification pipeline based on 
a multi-larvae tracking procedure, with a U-Net for initialization of tracking 
procedure, a particle filter for tracking, and region growing for local segmenta- 
tion of larvae. To test the performance of the proposed quantification pipeline, 
six sets of experiments (2 controls and 4 treatments) were conducted and the 
results generated from this platform as well as the analysis of the detected 
errors verified the effectiveness of the platform. A high efficiency is also 
guaranteed with in average 63 ms per frame for the quantification pipeline on 
CPU. Our future work will be to apply our proposed platform on more data 
from other drug screening of touch response of zebrafish larvae. 
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1 Introduction 


Safe and efficient motion planning and control are crucial components for 
automated driving. The modeling and prediction of multi-agent interactions 
in traffic provides a challenge for current decision-making in driving tasks. 
Often driving policies are designed manually for specific scenarios, which is 
time-consuming both in development and maintenance. On the other hand, 
reinforcement learning (RL) learns and improves driving policies in a trial-and- 
error fashion, with little design and engineering effort. Current RL approaches 
for automated driving utilize a variety of state-space representations. Hoel 
et. al [1] propose a feature vector composed of position, speed, and lane 
information. This representation requires a fixed size input. Huegle et. al 
[3] employ deep sets [4] to process perceptions of variable dimensionality. 
However, they do not encode detailed context information. Fixed-size multi- 
layer grid maps (MLG) [2] easily represent semantic context information in 
the vehicle’s environment. However, they impose a trade-off between com- 
putational efficiency, memory consumption, and performance. Recent work 
[5] in the area of trajectory prediction proposes to encode object and context 
information as vectors. This comes with the advantage of low discretization 
errors and computational workload while achieving better performance. To 
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Figure 1: VectorRL system architecture. 


overcome the previously described representation complexity, this work pro- 
poses a novel graph-based RL approach that relies on a vectorized environment 
representation. Different attention mechanisms provide insight into the regions 
and objects relevant to the agent’s decision-making. Visualization of the atten- 
tion states contributes to the interpretability of the learned policy. The graph- 
based RL approach is evaluated in an urban scenario in a realistic simulation 
environment. It is compared to several state-of-the-art baselines, which rely 
on grid-based environment representations. The analysis shows that the graph- 
based approach outperforms the baselines on all metrics. 


2 Vector-based Reinforcement Learning 


This section introduces the RL problem formulation and the proposed archi- 
tecture. 


Problem Formulation. Let us model the RL task as a Markov Decision Pro- 
cess (MDP), defined by the tuple M = (I, ,p,r,Y). r(S;,a;,8;41) denotes 
the reward. The policy 7: S — & maps from states s € Z to a proba- 
bility distribution over actions a € </. The goal is to estimate an optimal 
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policy function 7* = arg maxge $; ¥ r(s;,a1,8;41) that maximizes the finite- 
horizon cumulative reward over the horizon H. y € [0...1] denotes a discount 
factor. 


Approach. The RL problem relies on a graph-based state representation. Fi- 
gure 1 visualizes the architecture of the proposed approach. The planned 
route, lane information, and all object trajectories are represented as polylines 
of length d € R. Each polyline P; € Y with index j € N* is mapped onto 
n—1 equidistant vectors v; € P; with v; = [d},a;, j]. di,d? € R? are the 2- 
D start and end positions w.r.t. the self-driving vehicles coordinate system 
with vector index i € N+. Further, a; is a set of attributes. The route and 
lane polylines contain width, velocity limit, and intersection information. The 
attributes of the vehicle polylines characterize its width and length, and orien- 
tation. Furthermore, polylines contain a node indicator. Following the work 
of [5], fully connected sub-graphs encode the corresponding information. Glo- 
bal graph models capture the higher-order interactions between sub-graphs. 
Whereas the original approach relies on a self-attention (SA) [6] mechanism, 
our approach in addition investigates graph-attention (GAT) mechanisms [7]. 
The Soft Actor-Critic (SAC) [8] agent employs the resulting embedding as 
state-space representation. The action a; at time ¢ consists of a normalized 
continuous acceleration a € [0...1], braking signal b € [0...1], and steering 
angle 6 € [—1...1]. The reward function is similar to the work of [2]: 


r(St,at) = Airy + Aaniat + Asreot + Adriane — 0.1 (1) 


Fcol, Flat and ry penalize collisions as well as deviations from the reference lane 
and the reference velocity, respectively. Fiane and the constant term impose 
high negative reward, in case the vehicle leaves its lane or stops. The main 
advantage of the proposed scheme is the ability to visualize the individual 
attention weights as illustrated in Figure 2. A high color saturation indicates 
a strong attention of the agent to these polylines. The attention visualization 
provides insights into the decision-making progress of the SDV, which is cru- 
cial for the acceptance of learning-based driving policies. While the agent pays 
close attention to nearby vehicles during merging (Left image of Figure 2), the 
attention remote vehicles (Right image of Figure 2) remains low, as these do 
not compromise the immediate safety of the SDV. 
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Figure 2: Visualization of the attention weights. The current positions of the SDV (red) and other 
agents (green) are marked by a star. The history is denoted with circles. Grey indicates 
the graph of the lane centers. Blue denotes they waypoints of the global route. A high 
saturation visualizes a high attention weight. 


3 Evaluation 


This section evaluates the approach in a challenging urban roundabout scenario 
in the CARLA [9] simulator (Version 0.9.11). The RL algorithm is imple- 
mented within Open AI Gym [11]. We compare against multiple baselines 
considering different metrics. A roundabout scenario in Town 1 based on the 
work of [2] is constructed for the purpose of policy evaluation. 


Baselines. BEV-OFF: The approach of [2] first trains an autoencoder (AE) 
offline. The AE maps a Bird’s-eye view (BEV) image to a latent space repre- 
sentation. Then the SAC algorithm is trained based on the latent representation 
BEV-ON: The work of [10] trains the autoencoder together with the RL agent 
by minimizing a multi-task objective. VectorRL-SA, VectorRL-GAT: The pro- 
posed approach either employs self-attention or graph-attention for the global 
graph interaction. 


Metrics. Success Rate (SR): The proportion of collision-free episodes in which 
the SDV reaches its final destination. Progress (P): The average distance 
the vehicle travels. Velocity Tracking Precision (VTP): Average normalized 
tracking error of the reference velocity. One indicates the optimal tracking 
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Table 1: Performance in the roundabout scenario. 


Approach SR [%] P [m] VTP LTE [m] 

BEV-OFF 64 83.80+0.81 0.64+0.29 0.40+0.29 

BEV-ON 68 91.3040.79 0.59+0.253 0.29+0.28 
VectorRL-GAT 96 108.10+0.80 0.71+#0.29 0.41+0.33 


VectorRL-SA 98 110.00+0.80 0.73+0.3 0.29+0.39 


SR 


50 5 


BEV-OFF 
BEV-ON 
—4— VectorRL-GAT 
4 VectorRL-SA 


Number of other agents 


Figure 3: Generalization capabilities using an increasing number of obstacle objects and changing 
exits. 


performance. Lateral Tracking Error (LTE) The mean lateral deviation to the 
reference lane. 


Performance. In the first experiment, the SDV is supposed to follow the 
global route. This route always navigates the agent towards the second exit 
of the roundabout. During training and testing, 20 other vehicles are spawned 
at random locations in the vicinity of the roundabout. Testing is performed 
on 50 randomly generated scenarios, and the results are reported in Table 1. 
Notice, that the graph-based approaches outperforms the BEV image-based 
approaches consistently across all metrics. 
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Generalization. An additional experiment, in which the agent is trained to 
take the second exit in a scenario with 100 obstacles spawned over the whole 
map evaluates the generalization capability of the state-representations. Note, 
that this scenario exhibits sparser traffic compared to the original setup. During 
testing the nominal exit is chosen randomly and moreover the number of agents 
spawned in the roundabout varies as illustrated in Figure 3. The graph-based 
approaches generalize better to a higher number of agents and achieve a more 
consistent SR. 


4 Conclusion 


This work presented a graph-based RL approach for automated driving. The 
method encodes different semantic information in a vector-based environment 
representation. The evaluation shows that the proposed approach outperforms 
other baselines with a grid-based state representation. Future work evaluates 
graph-based approaches in the offline RL setting, in which the agent learns 
a policy merely from a static dataset without interactions with the environ- 
ment. 
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1 Introduction 


A distinction between two different types of uncertainty, aleatoric and epis- 
temic [6], has received increasing attention in the recent machine learning 
literature [8, 14]. While the former refers to statistical uncertainty in the sense 
of inherent randomness, the latter captures systematic uncertainty caused by a 
lack of knowledge. 


In this paper, we consider ensemble-based approaches to uncertainty quanti- 
fication, i.e., to derive meaningful measures of aleatoric and epistemic uncer- 
tainty in a prediction. In this regard, we propose a distinction between three 
types of uncertainty-aware learning algorithms: probabilistic agents, Bayesian 
agents, and Levi agents (Section 2). We address the question of how to quan- 
tify aleatoric and epistemic uncertainty in a formal way (Section 3), both for 
Bayesian and Levi agents, and how to approximate such quantities empirically 
using ensemble techniques (Section 4). Moreover, we analyze the effectiveness 
of corresponding measures in an empirical study on classification with a reject 
option (Section 5). 
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2 Representing Predictive Uncertainty 


We consider a standard setting of supervised learning, in which a learner is 
given access to a set of (i.i.d.) training data 2 = {(x;,y;)}"_, C Z x Y, where 
X is an instance space and % the set of outcomes that can be associated with 
an instance. In particular, we focus on the classification scenario, where % = 
{y1,.--,¥«} consists of a finite set of class labels, with binary classification 
(Y = {0,1}) as an important special case. 


Suppose a hypothesis space # to be given, where a hypothesis h € # is 
a mapping 2 — P(Y), with P(Y) the class of probability measures on 
Y. Thus, a hypothesis maps instances x € X to probability distributions on 
outcomes. The goal of the learner is to induce a hypothesis h* € # with low 
risk (expected loss) 


RH) = |, „Hear ı o 


where P is the (unknown) data-generating process (a probability measure on 
X x Y), and L: P(2) x Y — R a loss function. 


Eventually, one is often interested in the predictive uncertainty, i.e., the un- 
certainty related to the prediction $, for a concrete query instance x, € X. 
Given such a query, different learning methods proceed on the basis of different 
types of information. Depending on how the uncertainty is represented as a 
basis for prediction and decision making, we propose to distinguish three types 
of learning methods, which we call, respectively, probabilistic, Bayesian, and 
Levi agents. 


2.1 Probabilistic Agents 


A common practice in machine learning is to consider learners that fully com- 
mit to a single hypothesis h € # and use this hypothesis to make predictions. 
Such a learner will predict a single probability distribution 


q=h(xq) = (q1,...,gqx) € P(2), (2) 
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where gj is the probability of the k” class yg. This prediction is considered as 
an estimation of the (true) conditional probability p(y|x,). We call a learner of 
that kind a probabilistic agent. Such an agent’s uncertainty about the outcome 
y is purely aleatoric. At the level of the hypothesis space, the agent pretends 
full certainty, and hence the absence of any epistemic uncertainty about the 
best hypothesis h. 


2.2 Bayesian Agents 


Adhering to the principle of (strict) Bayesianism as advocated by statisticians 
such as De Finetti [4], a Bayesian agent will represent its belief about the 
best hypothesis in terms of a probability distribution on #. Thus, instead 
of committing to a single hypothesis h, the agent will assign a probability 
(density) p(h) to each candidate h € #. Moreover, belief revision in the 
light of observed data Y is accomplished by replacing this distribution with 
the posterior p(h| 2). 


Since every h € # gives rise to a probabilistic prediction (2), a Bayesian 
agent’s belief about the outcome y, is represented by a second-order probabi- 
lity: a probability distribution of probability distributions. If needed, p can be 
“collapsed” into a single distribution q on %. This is typically accomplished 
by inducing q from p (or, more generally, a corresponding measure P) via 
Bayesian model averaging (BMA): 


q=bma(p) = | hlæ) dP(h) 3) 


2.3 Levi Agents 


As a further generalization, instead of committing to a single probability dis- 
tribution p € P(#) on the hypothesis space, the learner may work with a set 
Q' C P(#) of such distributions, all of which are deemed plausible candi- 
dates. Each distribution p € Q’ again gives rise to a probability distribution 
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according to (3). Eventually, the relevant representation of the learner is a set 
of probability distributions 


= {bma(p )Ipeo'} CP( Y). (4) 


The reasonableness of taking decisions on the basis of sets of probability dis- 
tributions (and thus deviating from strict Bayesianism) has been advocated by 
decision theorists like Levi [11, 12]. Correspondingly, we call a learner of 
this kind a Levi agent. The set Q’ (and thereby the set Q) can be produced 
in different ways, for example as a credal set in the context of imprecise 
probability theory [16]. 


3 Uncertainty Quantification 


According to our discussion so far, different types of learners represent their 
information or “belief” about the outcome y, for a query instance x, in different 
ways. What we are mainly interested in is a quantification of these learner’s 
epistemic and aleatoric uncertainty, i.e., we are seeking a measure of epistemic 
uncertainty, EU, and a measure of aleatoric uncertainty, AU. 


For ease of notation, we subsequently omit the conditioning on the query 
instance Xz, i.e., all probabilities of outcomes should be understood as conditi- 
onal probabilities given x, (for example, we write p(y) instead of p(y|x,) and 
p(y |h) instead of p(y|h,x,)). We denote the set of all probability distributions 
(probability vectors) q = (q1,-.-,9x) € [0,1]* by Ax. 


3.1 Probabilistic Agents: Entropy 


The most well-known measure of uncertainty of a single probability distribu- 
tion is the (Shannon) entropy, which, in the case of discrete %, is given as 


— È q(y) log, g(y) (5) 
yey 
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where 0log0 = 0 by definition. This measure can be justified axiomatically, 
and different axiomatic systems have been proposed in the literature [3]. It is 
the most obvious candidate to quantify the aleatoric uncertainty of a proba- 
bilistic agent, i.e., AU(g) = S(q). As such an agent pretends to have precise 
knowledge of the predictive distribution, the epistemic uncertainty is 0. 


3.2 Bayesian Agents: Entropy and Mutual Information 


A principled approach to measuring and separating aleatoric and epistemic un- 
certainty on the basis of classical information-theoretic measures of entropy is 
proposed by [5]. This approach is developed in the context of neural networks 
for regression, but the idea as such is more general and can also be applied to 
other settings. A similar approach was recently adopted by [13]. 


More specifically, the idea is to exploit the following information-theoretic 
separation of the total uncertainty in a prediction, measured in terms of the 
(Shannon) entropy of the predictive posterior distribution (in the case of dis- 
crete Y given by (5)): Considering the outcome as a random variable Y and 
the hypothesis as a random variable H, we have 


S(Y) =1(¥,H)+S(Y|H), 


where /(Y,H) is the mutual information between hypotheses and outcomes 
(i.e., the Kullback-Leibler divergence between the joint distribution of outco- 
mes and hypotheses and the product of their marginals): 


10.8) = Eron ion ( 20%) 6 


This term qualifies as a measure of epistemic uncertainty, as it captures the 
dependency between the probability distribution on % and the (uncertain) 
hypothesis h. 
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Finally, the conditional entropy is given by 


S(Y |H) =Eyua {S(pß|h))} = (7) 
=- | pla) (z TEL TD) dh 
7 yey 


This measure qualifies as a measure of aleatoric uncertainty: By fixing a hypot- 
hesis h € #, the epistemic uncertainty is essentially removed. Thus, the 
entropy S(p(y|/)), i.e., the entropy of the conditional distribution on X pre- 
dicted by A (for the query x,) is a natural measure of the aleatoric uncertainty. 
However, since h is not precisely known, aleatoric uncertainty is measured in 
terms of the expectation of this entropy with regard to the posterior probability 
p(h| 2). 


3.3 Levi Agents: Uncertainty Measures for Credal Sets 


In the case of a Levi agent, uncertainty degrees ought to be specified for a set of 
probability distributions Q C Ax. In the literature, such sets are also referred to 
as credal sets [16]. There is quite some work on defining uncertainty measures 
for credal sets and related representation, such as Dempster-Shafer evidence 
theory [15], asking for a generalized representation 


U(Q) = AU(Q) + EU(Q), (8) 


where U is a measure of total (aggregate) uncertainty, AU a measure of alea- 
toric uncertainty (a generalization of the Shannon entropy), and EU a measure 
of epistemic uncertainty. 


As for the latter, the following generalization of the Hartley measure, a well- 
established measure of uncertainty for sets, has been proposed by various aut- 
hors [2]: 

GH(Q) = J, mo(A) log(|A]), (9) 


ACY 
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where mo: 2” — [0,1] is the Möbius inverse of the capacity function v : 
2” — [0,1] defined by 


vo(A) = inf 4(A) (10) 


for all A C Y, that is, 


mo(A) = X (-1)*lvo(B). 
BCA 


This measure is “well-justified” in the sense of possessing a sound axiomatic 
basis and obeying a number of desirable properties [9]. 


Regarding AU(Q), an extension of Shannon entropy, “well-justified” in the 
same sense, has not been found so far. As a possible way out, it was suggested 
to define a meaningful measure of total or aggregate uncertainty U(Q), and to 
derive a generalized measure of aleatoric uncertainty via disaggregation, i.e., 
in terms of the difference between this measure and the measure of epistemic 
uncertainty (Hartley), or vice versa, to derive a measure of epistemic uncer- 
tainty as the difference between total uncertainty and a meaningful measure of 
aleatoric uncertainty. 


The upper and lower Shannon entropy play an important role in this regard: 


S*(Q) =maxS(q), S.(Q) = min S(q) (11) 
qEQ qEQ 
Based on these measures, the following disaggregations of total uncertainty (8) 
have been proposed [1]: 


S*(Q) = (S*(Q) — GH(Q)) + GH(Q) (12) 
S*(Q) = S.(Q) + (S*(Q) —S.(Q)) (13) 


In both cases, upper entropy serves as a measure of total uncertainty U(Q), 
which is again justified on an axiomatic basis. In the first case, the generalized 
Hartley measure is used for quantifying epistemic uncertainty, and aleatoric 
uncertainty is obtained as the difference between total and epistemic uncer- 
tainty. In the second case, lower entropy is used as a (well-justified) measure 
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of aleatoric uncertainty, and epistemic uncertainty is derived in terms of the 
difference between upper and lower entropy. 


4  Ensemble-Based Uncertainty Quantification 


Ensemble-based approaches to uncertainty quantification have recently been 
advocated by several authors [10]. Adopting a Bayesian perspective, the va- 
riance of the predictions produced by an ensemble is inversely related to the 
“peakedness” of a posterior distribution p(h| 2). Thus, an ensemble can be 
considered as an approximate representation of a second-order distribution 
p(h| 2) in a Bayesian setting. 


Given this motivation, we address the question of how the measures of uncer- 
tainty introduced above can be realized by means of ensemble techniques, i.e., 
how they can be computed (approximately) on the basis of a finite ensemble of 
hypotheses H = {h1,...,hy}, which can be thought of as a sample from the 
posterior distribution p(h| 2). More specifically, we consider this question for 
the case of a Bayesian and a Levi agent. The following notation will be used: 


© Pim = P(YK| hm, Xq) is the probability predicted for class y by hypothe- 


sis hm for query xq, i.e., (Pim,---;PKym) = P(-|Am,Xq); 
© Im = p(A|hm) denotes the likelihood of hmn; 


© q = _, p(hm| 2) Pk m is the posterior probability estimate for class 
yx produced by the ensemble through weighted averaging. 


4.1 Bayesian Agents 


Recalling the approach presented in Section 3.2, it is obvious that (6) and (7) 
cannot be computed efficiently, because they involve an integration over the 
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hypothesis space #. Based on an ensemble H = {hı,..., hy}, an approxima- 
tion of (7) can be obtained by 


M K 
AU(x,)=- $ p(hm| 2) $ PrmlOg Pim, (14) 
m=1 k=1 


an approximation of total uncertainty, i.e., Shannon entropy (5), by 


K 
U(xq) = — ¥ log, (15) 
k=1 


and finally an approximation of (6) by EU(x,) = U(x,) — AU(x,). Assuming 
a uniform prior, which is quite natural in the case of ensembles, the posterior 
probability of hypotheses can be obtained from p(hm | 2) & lm. 


4.2 Levi Agents 


How could the idea of a Levi agent be implemented on the basis of an ensemble 
approach? As explained above, credal inference yields a set of probability 
estimates, each of which is obtained by Bayesian model averaging according 
to a different prior. Thus, instead of assuming a uniform prior p(h,,) = 1/M, 
we should now proceed from a set of priors. A simple example is the family 


1 ô X 
Ss = s= (ag SmS yp Le Sm = 1 (16) 


m=1 


of distributions 5-close to uniform, where 6 > 1 is a (hyper-)parameter. Thus, 
compared to the uniform prior, the probability of a single hypothesis can now 
be decreased or increased by a factor of at most 6. The set of posterior proba- 
bilities is then given by 


Smlm 
hnl 2) = SESS’, 
7 TER ee s} 
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and hence the credal set on % by 


m=1 


Q= [a= È sninn (a) sins esa} 


To compute the decompositions (12) and (13) for Q, we need to compute the 
measures S*, S4, GH. According to (9), the computation of the measure GH 
requires the capacity (10), i.e., the lower probability vo(A) of each subset of 
classes A C Y. For A = {yj} je, identified by an index set J C [K], the latter is 
given by 


s 
vo(A) = ming(A) = min Kies En- Dim me : 
geo SESS Vina Smlm 
Thus, finding vg(A) comes down to solving a linear-fractional programming 
problem (for which standard solvers can be used). Moreover, finding S* comes 
down to solving 
= wir Smlm Pk,m yra Smlm Pk,m 
max T log T 
SESS k=l Emi Sm lm Im-i Sm lm 


’ 


and similarly for S, (with max replaced by min). 


5 Experiments 


Predicted uncertainties are often evaluated indirectly, for example by assessing 
their usefulness for improved prediction and decision making, because the 
data does normally not contain information about any sort of “ground truth” 
uncertainties. Here, we conducted such an evaluation by producing accuracy- 
rejection curves, which depict the accuracy of a predictor as a function of the 
percentage of rejections [7]: a learner, which is allowed to abstain on a certain 
percentage p of predictions, will predict on those (1 — p) % on which it feels 
most certain. Being able to quantify its own uncertainty well, it should improve 
its accuracy with increasing p, hence the accuracy-rejection curve should be 
monotone increasing (unlike a flat curve obtained for random abstention). 
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5.1 Data Sets and Experimental Setting 


We compare the Bayesian agent with different variants of the Levi agent in 
terms of their ability to quantify aleatoric and epistemic uncertainty. The 
Bayesian agent quantifies these uncertainties according to (14) and (15). The 
Levi agent is implemented as described in Section 4.2. Uncertainty is quan- 
tified based on the generalized Hartley measure (Levi-GH) according to (12), 
or based on upper and lower entropy (Levi-Ent) according to (13). In this 
experiment, we set the hyper-parameter 6 = 2. 


We performed experiments on various well-known data sets from the UCI 
repository!. The data sets are randomly split into 70% for training and 30% 
for testing, and accuracy-rejection curves are produced on the latter. Each 
experiment is repeated and averaged over 100 runs. We create ensembles 
using the Random Forest Classifier from SKlearn. The number of trees within 
the ensemble is set to 10. Each tree can grow to a maximum of 10 splits. 
Probabilities are estimated by (Laplace-corrected) relative frequencies in the 
leaf nodes of a tree. 


5.2 Results 


Fig. 1 shows the accuracy-rejection curves for the different learners, separated 
into epistemic uncertainty (EU) in the left, aleatoric uncertainty (AU) in the 
middle, and total uncertainty (TU) on the right column. Due to space restricti- 
ons, we only show the results for five data sets, noting that the results for other 
data sets are very similar. The following observations can be made. 


e As suggested by the shape of the accuracy-rejection curves, both the 
Bayesian and the Levi agent perform quite well in general. On total 
uncertainty, they are basically indistinguishable, which is almost a bit 
surprising, given that these uncertainties are quantified on the basis of 
different principles. 


'http://archive.ics.uci.edu/ml/index.php 
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Figure 1: Accuracy-rejection curves for the Bayesian and the Levi agent. 
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e Levi-GH seems to have an advantage over the Bayesian agent on episte- 
mic uncertainty, providing evidence for the generalized Hartley measure 
as a reasonable measure of epistemic uncertainty. 


e Levi-Ent seems to have an advantage over the Bayesian agent on aleato- 
ric uncertainty, providing evidence for the lower entropy as a reasonable 
measure of aleatoric uncertainty. 


e The “derived” measures, S*(Q)—GH(O) for aleatoric and S* (Q) —S.(Q) 
for epistemic uncertainty, both perform quite poorly. 


6 Conclusion 


We proposed a distinction between different types of uncertainty-aware lear- 
ning algorithms, discussed measures of total, aleatoric and epistemic uncer- 
tainty of such learners, and developed ensemble-methods for approximating 
these measures. In particular, we compared the classical Bayesian approach 
with what we call a Levi agent, which makes predictions in terms of credal 
sets. 


In an experimental study on uncertainty-based abstention, both methods show 
strong performance. While the Bayesian and the Levi agent are on a par for to- 
tal uncertainty, improvements of the Bayesian approach can be achieved for the 
two types of uncertainty separately: The generalized Hartley measure appears 
to be superior for epistemic and the lower entropy for aleatoric uncertainty 
quantification. On the other side, the alternative measures of aleatoric and 
epistemic uncertainty obtained through disaggregation perform quite poorly. 
These results can be seen as an interesting empirical complement to the theo- 
retical (axiomatic) research on uncertainty measures for credal sets. 


In future work, we seek to further deepen our understanding of ensemble-based 
uncertainty quantification and elaborate on the approach presented in this pa- 
per. An interesting problem, for example, is the tuning of the (hyper-)parameter 
ö in (16), for which we simply took a default value in the experiments. Obvi- 
ously, this parameter has an important influence on the uncertainty of the Levi 
agent. Besides, we also plan to develop alternative approaches for constructing 
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ensembles. Last but not least, going beyond abstention and accuracy-rejection 


curves, we plan to apply and analyze corresponding methods in the context of 


other types of uncertainty-aware decision problems. 
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1 Einfuhrung 


Sollen bei der datengetriebenen Modellbildung Unsicherheiten der zu schät- 
zenden Parameter quantifiziert werden, wird typischerweise eine probabilisti- 
sche Beschreibung der Unsicherheit herangezogen. Dabei wird eine bekannte 
Wahrscheinlichkeitsdichtefunktion (WDF) vorausgesetzt, bzw. es werden viele 
Daten für die Schätzung der WDF benötigt, was bei praktischen Anwendungs- 
fällen meist nicht gegeben ist. 


Ein alternativer Ansatz ist hier die mengenbasierte Bounded-Error-(BE-)-Pa- 
rameterschätzung [1]. Dabei wird die Annahme getroffen, dass der Prädik- 
tionsfehler in einem Intervall mit garantierten Schranken liegt und gegeben 
der Annahmen wird die zulässige Parametermenge (Feasible Parameter Set, 
FPS) bestimmt [2]. Für einen Anwendungsfall der Randschichtprädiktion beim 
Hartdrehen mit Takagi-Sugeno-Multimodellen konnten BE-Verfahren in [3, 4] 
erfolgreich eingesetzt werden. Für einen Einsatz in der datengetriebenen Mo- 
dellbildung mit einer großen Parameteranzahl n ergibt sich allerdings ein hoher 
Rechenaufwand für die exakte Bestimmung der zulässigen Parametermenge. 
Um diesem Problem bei der BE-Parameterschätzung zu begegnen, können 
Approximationsverfahren eingesetzt werden. Verbreitet werden dabei Hyper- 
ellipsoide als Kompromiss zwischen kompakter Beschreibung und Flexibilität 
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eingesetzt [5]. Allerdings kommt es hierbei zu starken Überschätzungen des 
FPS, da die Approximationen zwar in jedem Schritt optimal sind, global aber 
nicht. Somit kann nicht garantiert werden, dass die Fehlerschranken durch das 
approximierte Modell eingehalten werden. 


Aus den oben genannten Problemen ist die Idee für ein neuartiges Verfah- 
ren zur approximativen Bestimmung der zulässigen Parametermenge entstan- 
den. Dabei wird das aus der Computergrafik bekannte Ray-Tracing bzw. im 
n-Dimensionalen in der algorithmischen Geometrie als Ray-Shooting bekann- 
te Verfahren der Strahlenverfolgung eingesetzt. Die Schnittpunkte des Ray- 
Shootings in konvexen Polytopen ergeben sich dabei als Lösung eines linea- 
ren Optimierungsproblems [6]. Durch die Strahlenverfolgung ergibt sich ein 
samplingbasierter Ansatz, der die Geometrie des konvexen Polytops des FPS 
ausnutzt. Das Ray-Shooting identifiziert garantiert eine Untermenge der wah- 
ren Parametermenge, wodurch die festgelegten Fehlerschranken immer ein- 
gehalten werden. In dieser Arbeit wird die Idee des Verfahren konzeptionell 
vorgestellt und anhand einer Fallstudie demonstriert. 


2 Methoden 


2.1 Bounded-Error-Fehlerbeschreibung 


In diesem Beitrag wird die Parameterschätzung aus einer mengentheoretischen 
Sichtweise betrachtet. Die Idee der Bounded-Error-Schätzung kann dabei wie 
folgt beschrieben werden. Es soll ein parametrisches Model $ = f(0@,x), mit 
dem Parametervektor 0 € R” bestimmt werden, um den funktionalen Zusam- 
menhang zwischen einer Ausgangsgröße y € R und Eingangsgrößen x € R”? 
herzustellen. Das Model soll dabei aus einem Datensatz ZY = {x(k),y(k)},k = 
1,...,N} gelernt werden. Das Ziel bei der BE-Schätzung ist dabei die Bestim- 
mung einer zulässigen Untermenge des Parameterraums Spps < P, die zu einer 
Modellausgabe führt, die die Annahme einer spezifizierten Fehlerschranken- 


menge E erfüllt: 


Srps = {0 € R”|e(0) € a} (1) 
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Diese Menge wird als zulässige Parametermenge bezeichnet. Der Prädiktions- 
fehler wird als e(k, 0) = y(k) — S(k,@) definiert. Die Fehlerschranken werden 
als Intervalle beschrieben: 


e(k, @) € [emin(k), max (k)],& = 1,...,N (2) 


und können individuell für jeden Punkt festgelegt werden. Gewöhnlich werden 
dabei die selben symmetrischen Fehlerschranken 6 = (emax — min) /2 für jedes 
k angenommen. Somit folgt für (1): 


Srps = {0 € R”|y(k) — 6 < f(k, 0) < y(k) + 6 Vk} (3) 


2.2 Bounded-Error-Schatzung für LiP-Modelle 


Für Modelle, die linear-in-den-Parametern (LiP) sind, ist Spps ein Polytop, 
wenn N > ding > n unabhängige lineare Ungleichungen existieren. Ist ein LiP- 
Modell $ = g7 @ mit dem Regressionsvektor @ € R” und sind N Beobachtun- 
gen gegeben, schränkt jedes der N Intervalle 


y(k) —8 < Pk)" O<y(k)+6 (4) 


das FPS durch zwei Ungleichungen im R” ein. Insgesamt existieren also 2N 
Ungleichungen. Ein Polytop Y kann durch die eingrenzenden Halbräume be- 
schrieben werden: 


P={09 eR"|®9<Y} (5) 
mit 
-y(I) +8 ea)! 5 
y(I) +8 ei)? A 
Y= ; ‚®= ; 0 |: (6) 
=y(N) +8 Pin)" a 
y(N) +6 pn)” a 


somit folgt: ® c R’N*"e, @ € R", und Y € R”. 
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Bild 1: REOB-Verfahren (Dargestellt ist die k-te Iteration) 


2.3 Rekursive Approximation des FPS mit Ellipsoiden 


In der Literatur werden verschieden Methoden zur approximativen Schätzung 
des FPS vorgeschlagen. Dazu wird das exakte FPS durch Geometrien wie 
Parallelotope, Zonotope oder Ellipsoide angenähert. Ein verbreiteter Ansatz 
ist dabei die rekursive Schätzung mit begrenzenden Ellipsoiden (Recursive 
Ellipsoidal Outer Bounding, REOB). Dabei wird eine äußere Approximation 
Seps > Spps durch die rekursive Berechnung der Schnittmengen von volu- 
menminimalen Ellipsoiden E; in der k-ten Iteration mit dem k-ten Paar der 
Halbebenen H} und H? berechnet, wie in Bild 1 illustriert. Eine ausführliche 
Beschreibung ds Verfahrens ist in [5] zu finden. Neben den Verfahren zur äu- 
Beren Einschränkung des FPS existieren auch rekursive Verfahren zur inneren 
Einschränkung, die allerdings zu einer starken Unterschätzung tendieren [2]. 


2.4 Lokal-affine Multi-Modell 


Als parametrischer Modellansatz werden im Folgenden lokal-affine Multimo- 
delle betrachtet. Diese zeichnen sich durch eine hohe Modellflexibilität bei 
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kompakter Modellstruktur aus und können für die Identifikation nichtlinearer 
Systeme verwendet werden. 


Dabei werden c € N; Teilmodelle §; = f(0 ;ım,®) : R"? > R, durch Fuzzy- 
Basisfunktionen @;(z) : R" — [0,1] überlagert, welche von Schedulingvaria- 
blen z = [zı... Zn,]’ € R™ abhängen: 


3(2,0,®) = ), o;(Omr,z)9;(0j.1M, 9). (7) 


Dabei werden affine Teilmodelle verwendet: 


9;(O0j1m,) =), 9m % = Oj, (8) 
r=0 


mit dem r-ten Element @, des Regressionsvektors 


@ = [1 x1. Xn] (9) 


und dem r-ten Element 8; ım des entsprechenden lokalen Parametervektor 
0 jim € R”. Das Multimodell (7) kann dann wie folgt geschrieben werden: 


3=®#' Om (10) 


mit dem erweiterten Regressionsvektor 


T 
o= lo Pixi 22 O1Inpl---[be Ber «+. Bern, | (11) 


und dem Vektor der lokalen Modellparameter 


T 
im = [aoa aii An,,1|-- - la0,c itri any] (12) 


23 T T nxc 
=| LLM---OcLMm ER . 


Dabei sind 
Lj(2) 


$j (Z) = Eora 


(13) 
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Bild 2: Ray-Shooting im konvexen Polytop 


die Fuzzy-Basisfunktionen mit der Fuzzy-C-Means-Zugehörigkeitsfunktion 


ujlz) = : = j p (14) 


>=] Iz- villa 


Die Partitionierungsparamter v;,v; € IR” werden im Parametervektor O1r = 
v7, ..., vI]? aggregiert. Im Folgenden wird für die Schedulingvariable z = x 
angenommen. 


2.5 Ray-Shooting in konvexen Polytopen 


Das Prinzip des Ray-Shooting wird in Bild 2 dargestellt. Ein Strahl wird ausge- 
hend von einem initialen Punkt xp € R, im Inneren eines durch M Halbebenen 
Ay, k=1,...,M beschriebenen konvexen Polytops gesendet. Das Ziel ist es, 
den Schnittpunkt &optr + xo zwischen dem Strahl und der ersten Halbebene, 
die getroffen wird, zu bestimmen. Die Richtung des Strahls wird dabei durch 
den Vektor r € R” und die Länge des Strahls durch a € R* festgelegt. 


Der Strahl geht von einem initialen Punkt x9 € R, im inneren des Polytops aus. 
Um ppt zu bestimmen wird hierzu das lineare Optimierungsproblem: 
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Oopt = max 0 


15 
u.d.N. Alar+xo)<b (>) 


gelöst, das sich in polynomialer Zeit berechnen lässt. 


2.6 Ray-Shooting fur die Approximation des FPS 


Die Idee besteht darin, das Ray-Shooting in konvexen Polytopen fiir eine in- 
nere Approximation des FPS bei LiP-Modellen einzusetzen. Fiir die Bounded- 
Error-Schatzung wird das Ray-Shooting im Raum der Parameter @ € R, durch- 
geführt, um Randpunkte des durch (5) gegebenen Polytops zu finden. Als Such- 
gebiet wird die achsparallele begrenzende Box gewählt, also das (Hyper-)Rech- 
teck, das durch [@min,1, 9max,1] X [Omin,2, Omax,2] X ++ X [Omin,n; Omax,n] gegeben 
ist. Dieses Rechteck lässt sich durch das Lösen von 2n linearen Programmen: 


Omink —min Ok (16) 

Omax,k —max Ok (17) 

u.d.N. A0 <b (18) 

für k = 1,...,n finden [1]. Es werden Parametervektoren zufällig gleichverteilt 


innerhalb der achsparallelen Box erzeugt und mit (4) auf Zulässigkeit über- 
prüft. Die zulässigen Punkte werden dann als initiale Punkte @9 verwendet. 
Um eine gute Abdeckung im Parameterraum zu erreichen, müssen bei hoher 
Parameteranzahl n entsprechend viele Punkte initialisiert werden, da deren 
Dichte exponentiell mit zunehmendem n sinkt. Die Richtungsvektoren r, die 
die Suchrichtungen vorgeben, werden ebenfalls zufällig gleichverteilt gewählt. 
Dazu werden diese als Vektoren vom Ursprung zur Oberfläche einer n-dimen- 
sionalen Einheitskugel festgelegt. Die mit dem Ray-Shooting aus Abschnitt 
2.5 bestimmten Randpunkte bilden dann die konvexe Hülle der approximierten 
zulässigen Parametermenge FPSRs-BE- 
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3 Fallstudie 


Die RS-BE-Methode soll anhand einer akademischen Fallstudie demonstriert 
werden. Hierzu wurden N = 50 Trainingsdaten mit einer einfachen nichtli- 
nearen Funktion y = f(x) = x? gleichverteilt im Intervall [-1;1] erzeugt. Der 
Ausgang f = y +d wurde mit gleichverteiltem Rauschen d ~ % (—0,05;0,05) 
beaufschlagt. Für die Modellierung wurden TS-Multi-Modelle mit v = 1,4 
und c = 4 Teilmodellen herangezogen, wobei die Clusterzentren äquidistant 
im Intervall der Eingangsgröße verteilt wurden. Im Fallbeispiel wird die Unsi- 
cherheit durch die lokalen Modellparametern OL m ausgedrückt und die Parti- 
tionierungsparameter Our werden als fixiert angenommen, wodurch ein LiP- 
Model resultiert. Als zulässige Fehlerschranke wurde 6 = 0,15 gewählt. Wei- 
tere Informationen zu Modellansatz und Identifikation sind in [3] zu finden. 
Die zulässige Parametermenge FPSrs-ge wurde mit dem RS-BE-Verfahren 
aus Abschnitt 2.6 bestimmt. Es wurden 10° initiale Punkte @9 erzeugt und 
für jeden der 221 zulässigen Punkte wurden 100 zufällige Richtungsvektoren 
r erzeugt. Somit wurden insgesamt 22100 Randpunkte gefunden. Die Rechen- 
zeit für das Sampling der zulässigen initialen Punkte betrug 1,8 s und für die 
Ray-Shooting-Prozedur 21,4 s. Außerdem wurde eine Approximation mit dem 
REOB-Verfahren aus Abschnitt 2.3 bestimmt. Die Rechenzeit beträgt hierbei 
2,6 s. 


In Bild 3 sind die geschätzten zulässigen Parametermengen für die einzel- 
nen Teilmodelle dargestellt. Dabei ist die deutliche Überschätzung mit dem 
REOB-Verfahren ist erkennbar. In Bild 4 sind die Trainingsdaten mit Fehler- 
schranken und die Prädiktionsfehlerschranken für beide Ansätze dargestellt. Es 
ist zu erkennen, dass RS-BE die vorgegebenen Fehlerschranken einhält, wäh- 
rend REOB die Schranken deutlich reißt. Alle Berechnungen wurden auf einer 
Workstation mit Intel i5-6500 3,2 GHz CPU und 16 GB RAM in MATLAB 
durchgeführt. Dabei wurde die Implementierung nicht auf Parallelisierbarkeit 
hin optimiert. Dies ist ein potentieller Ansatzpunkt, die Geschwindigkeit des 
Verfahrens zu erhöhen. 
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Bild 3: Projektionen für die Ergebnisse der Parameterschätzung mit REOB (gepunktet) und RS-BE 
(gestrichelt), sowie die achsparallelen begrenzenden Boxen (gestrichpunktet) 


4 Zusammenfassung und Ausblick 


In diesem Beitrag wurden die Idee und erste Ergebnisse für ein neuartiges 
Verfahren für die Bounded-Error-Schätzung bei LiP-Modellen vorgestellt. Es 
wurde gezeigt, dass eine Approximation der zulässigen Parametermenge ge- 
funden wird, die eine Modellprädiktion innerhalb der vorgegebenen Fehler- 
schranken gewährleistet. Das Verfahren lässt sich über die Anzahl der initialen 
Punkte und der ausgesendeten Strahlen skalieren. Somit erlaubt das Verfahren 
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a ace 


Bild 4: Trainingsdaten (x) mit Fehlerschranke (Fehlerbalken) und Prädiktionsschranken für 
FPSreop (gestrichelt) und FPSrs-pg (gepunktet) 


durch Festlegen von Abbruchkriterien den Trade-Off zwischen Genauigkeit 
und Rechenzeit einzustellen. 


Als samplingbasiertes Verfahren unterliegt es allerdings dem "Curse of Dimen- 
sionality", d.h. bei steigender Parameterdimension werden exponentiell mehr 
Samplingpunkte benötigt. Hierzu soll untersucht werden, wie ein effizienteres 
Sampling der initialen Punkte möglich ist. Zudem soll in Zukunft untersucht 
werden, inwiefern sich der Ansatz der Strahlenverfolgung auch für nicht-LiP 
BE-Schätzungen eignet. Dabei treten aber weitere Probleme wie nicht-konvexe 
und nicht-zusammenhängende Parametermengen auf. Zudem lässt sich das 
Ray-Shooting dann nicht mehr als Lösung eines linearen Programms (15) for- 
mulieren. 
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Abstract 


In this paper we present the first iteration of a novel time series classification 
algorithm which is globally and inherently interpretable. The need for model 
interpretability or explainability is commonly agreed upon in industry [1]. 
Model interpretability is an important characteristic of a classifier to build trust 
in the decisions of the classifier and makes it possible to iteratively improve a 
model with domain knowledge. 


The proposed algorithm first performs an unsupervised clustering of random 
segments of random length of a time series to find the most discriminating 
patterns. After finding segments with discriminating patterns, a decision tree 
is trained using the cluster labels as features. Therefore, the decision tree 
is restricted to learn a mapping from discriminating clusters to given class 
labels. 


The performance of our algorithm is compared to state-of-the-art algorithms 
with a computational feasible subset of the University of California, Riverside, 
time series archive [2]. The first iteration of our algorithm is computationally 
expensive and does not achieve state-of-the-art accuracy. We point out shor- 
tcomings of the current iteration and discuss planned improvements to our 
algorithm to tackle these shortcomings. We find that our algorithm creates 
shallow decision trees which boosts interpretability. In contrast, not all state- 
of-the-art approaches provide interpretable models. 


Proc. 31. Workshop Computational Intelligence, Berlin, 25.-26.11.2021 91 


1 Introduction 


During the last decades research on time series classification (TSC) has made 
considerable progress and the University of California, Riverside, time series 
archive (UCR TSA) [2] is often used to benchmark novel TSC algorithms on 
one dimensional time series. Often the term time series refers to any ordered 
series and is not limited to value-index pairs ordered by time. For example, the 
UCR TSA also includes series generated by spectrographs and object outlines 
mapped to one-dimensional series. 


In industrial and medical applications interpretability of a model is regarded as 
an important characteristic for a wide adoption of machine learning techniques 
in these fields [1, 3]. Furthermore, the type of interpretability a model provides 
is of interest. Here, we differentiate between types of interpretability regarding 
two different viewpoints. 


First, it is important to know how an explanation of a decision is produced. 
We adopt the differentiation from Rudin [4] and differentiate between the fol- 
lowing types: 


e Post hoc explanation of models. A model is explained post hoc by a 
second model. An example of a post hoc explanation method often 
applied to neural networks is LIME [5]. 


e Inherently interpretable models. The model itself provides a faithful 
explanation of its decisions. An example for an inherently interpretable 
model is a (small) decision tree with interpretable features. 


Second, we are interested in what type of explanation is provided by the model. 
Here, we adopt the differentiation from Hong [1]: 


e Locally interpretable models. The model explanation is given on a per 
instance basis. An example for this type of explanations are saliency 
maps. 


e Globally interpretable models. The logical structure of the model itself 
explains how it works globally. An example for globally interpretable 
models are, once again, decision trees with interpretable features. 


92 Proc. 31. Workshop Computational Intelligence, Berlin, 25.-26.11.2021 


In this paper we propose an algorithm which is globally and inherently in- 
terpretable. The features the algorithm utilises are regions of interest in the 
time series based on their visual appearance (shape). These regions of interest 
or intervals are phase-dependent which makes our algorithm appropriate for 
applications which require phase-dependency. 


The rest of the paper is organised as follows. In Section 2 we give an overview 
of state-of-the-art TSC algorithms which are related to our work. Next, we 
present the design of our algorithm in Section 3. In Section 4 we evaluate the 
performance of our algorithms and discuss advantages and shortcomings of it 
before finishing the paper with a conclusion and outlook in Section 6. 


2 Related Work 


One of the most basic approaches to TSC is a k-nearest-neighbours classifier 
using an elastic distance metric as similarity measure. An often used elastic 
distance metric is dynamic time warping (DTW) [6] or variations of it [7, 8]. 
While this approach is not competitive to current state of the art in terms of 
accuracy, it still provides a reasonable baseline. 


As in other fields, there exist a growing number of approaches to TSC which 
use neural networks [9]. Neural networks, especially neural networks inclu- 
ding convolutional layers, are found to be competitive to other state-of-the-art 
approaches in terms of accuracy. Some of the recent approaches rely on fully 
convolutional networks [10] or are inspired by successful architectures in com- 
puter vision like the Inception architecture [11]. Wang et al. [10] and Fawaz 
et al. [9] also explored explaining models with CAM, a post hoc explanation 
method for CNN-based models [12]. 


In 2016 Bagnall et al. [13] published an extensive review of the current state of 
the art in TSC. The best performing algorithm was an ensemble of classifiers, 
named COTE [14]. COTE combines state-of-the-art classifiers which work 
in different transformation domains. It was later extended and called HIVE- 
COTE [15]. This ensemble still achieves state-of-the-art accuracy on the UCR 
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TSA benchmark due to continuous updating of the ensemble with the latest 
developments in TSC [16]. 


A class of features which provides inherent explanations when combined with 
suitable classifiers are shapelets. Shapelets are phase-independent discrimi- 
native time series sub-sequences [17]. Classification is done based on the 
presence or absence or the count of these discriminative subsequences. One 
successful approach transforms the time series with a shapelet transformation 
and then a standard classifiers is trained on the transformed time series [18]. 
Learning of the k best shapelets through a heuristic gradient descent with a k- 
means clustering as shapelet initialization is presented by Grabocka et al. [19]. 
Brunello et al. [20] use a decision tree to build a classifier after finding phase- 
independent shapelets with evolutionary algorithms. 


Decision trees or forests are common classifiers for TSC problems due to their 
fast training time and interpretability. Deng et al. propose a time series forest 
(TSF) which uses statistics calculated from random interval as features [21]. 
They also propose a post hoc explanation through importance curves. More 
recently multiple ensembles of decision trees for TSC, which achieve state-of- 
the-art accuracy, are proposed [22, 23]. 


Another algorithm which achieves state-of-the-art accuracy and is inherently 
interpretable is the algorithm proposed by Nguyen et al. [24]. A symbolic 
representation of time series is combined with a sequence learner originally 
developed for biological sequence classification to search for the most dis- 
criminating sub-sequences in the symbolic representations. This approach 
provides an inherently and locally interpretable model through saliency maps. 
Nguyen et al. recently compared the explanations provided by CAM, LIME, 
and the inherent explanations of their sequence learner [25]. 


Although many decision tree approaches for TSC exist, we think there is still 
room for further exploration of this approach. We focus on designing an algo- 
rithm which creates inherently and globally interpretable models by relying on 
(shape-based) clustering results of intervals as features. Our hypothesis is that 
this gives us a distinctive separation of phase-dependent shapes of the times 
series which improves interpretability. A high level of interpretability enables 
verification and improvement of the model by an expert. 
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Figure 1: Concept of the proposed classification algorithm. 


3 Algorithm Design 


The overall concept of our algorithm can be seen in Fig. 1. First, intervals 
with random start index and random length are chosen. Next, for each interval 
multiple k-means clusterings with different configurations are computed. After 
a preliminary filtering of the clusters by the silhouette score [26], the remaining 
clustering results provide the features for a decision tree. Finally, after training 
the decision tree, the cluster centres of the selected clusterings visualise the 
decision process of the decision tree. 


In the following required definitions and notations are introduced. 


Time Series. A time series is a sequence t = (t1,..., tL) of L values (obser- 
vations) ordered by some criterium (e.g. time, frequency or wavelength). The 
length of time series t is L. 


Discrete Interval. A discrete interval .% = [s..e] is a set of integers, i.e. 
{s,s+1,...,e}. We express the indices of a sub-sequence of a time series 
with an interval. For example, t(.%) = (ts, ..., te) is the sub-sequence of time 
series t over the interval .%. The length of interval J is given by its cardinality 
|I|. We assume all intervals are valid, i.e. 1 < s < e < L holds. 
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3.1 Interval Selection 


Instead of choosing all possible intervals, we limit the number of intervals 
for a time series with length L to O(L) to reduce the time complexity of our 
algorithm. For the selection of the intervals, we follow the approach of Deng 
et al. [21]: 


1. Select VL window lengths from the set of possible window lengths W,= 
{1,...,L} by random sampling without replacement. 


2. For each window length w, select V L— w + 1 start indices from the set 
of possible start indices Y = {1,...,L-w+1} by random sampling 
without replacement. 


Each pair of selected window length w and start index i forms an interval ./ = 
(i..i++w—1]. We use these intervals to extract sub-sequences from the time 
series for further processing. 


By selecting sub-sequences from time series, we follow an interval-based ap- 
proach for our algorithm and introduce phase-dependency. The idea is to select 
regions of interest which possibly contain distinctive shapes. Ideally, they 
should have a causal relation to the class labels. 


3.2 Clustering 


If we are interested in inherently and globally interpretable models, we require 
meaningful features for our model. In TSC one type of meaningful features are 
distinctive shapes. After choosing interval candidates which represent possible 
regions of interest containing such shapes, one way to find meaningful features 
is to cluster the sub-sequences resulting from the intervals. 


We follow this rationale and apply k-means clustering with DTW as dissimila- 
rity measure to find clusters of sub-sequences which intuitively match in shape. 
Each cluster is then represented by an average series calculated with DTW 
barycentre averaging (DBA) [27]. We used the k-means clustering implemen- 
tation TimeSeriesKMeans from the tslearn [28] library. k-means++ [29] is 
applied as cluster initialization method. 
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We are only interested in cluster results which give a good separation between 
clusters. Therefore, before using the clustering results as training input for a 
decision tree, we pre-filter the results to exclude clustering results with high 
overlap between different clusters. For this we calculate the mean silhouette 
score [26] of all samples for each clustering result with DTW as the dissimila- 
rity measure. 


The (mean) silhouette score can take values between —1 and 1. A value below 
zero indicates overlapping of clusters while a value above 0 indicates a non- 
overlapping separation of clusters. We accept all cluster results with an overall 
silhouette score greater than zero for further processing. 


3.3 Decision Tree Induction 


In the last step, a decision tree is trained on the cluster labels of the remai- 
ning clustering results. As the decision tree induction algorithm we use an 
implementation of the ID3-algorithm by Quinlan [30] with two domain specific 
modifications: 


e Induce bias towards a preferred interval length. 
e Restrict the allowed overlap for intervals in the same tree branch. 


For attribute selection gain ratio [30] is applied. In early experiments we 
noticed that intervals with a high overlap often have the same (maximal) gain 
ratio. To break the tie, we introduce a weighting function which weights the 
gain ratio depending on the interval length. With this weighting function, we 
induce bias towards a preferred interval length. We prefer a shorter interval 
length over a longer one because the shape present in shorter intervals is usually 
less complex and easier to interpret. However, if the interval length gets too 
small (a single value in the extreme case), the shape may not be meaningful 
and dominated by noise. 


We propose to use a parametrisable unimodal weighting function 


F(x) = [0,1] > [0,1] 
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Figure 2: Proposed weighting function. 


which maps the relative interval length to a weight for the gain ratio. The 
parameters are &, the preferred interval length relative to the length of the 
time series, and B, the weighting value for the whole series length. We set 
f(a) =1 and f(1) = B. The weighting function is given by 


-b-a +1 forx< a, 


FR) gas (1) 


(ia)? (x-a)’+1 forx>a 


withO <a < l and0 < B < 1. Fig. 2 shows an example for f(x) with œ = 0.2 
and B = 0.5. 


A quadratic function is chosen for the weighting function because of its sim- 
plicity (in terms of parameters) while still having a modest slope around its 
maximum in contrast to e.g. a triangle function. However, other unimodal 
function types are also valid candidates. 


It can also happen that clustering results for the same interval but with a dif- 
ferent number of cluster centres have the same (maximal) gain ratio. In this 
case we select the clustering result with the highest silhouette score because we 
want the features to be as interpretable as possible. However, other preferences, 
i.e. selecting the result with the fewest cluster centres, are also valid options. 


The consecutive selection of multiple highly overlapping intervals in one tree 
branch may lead to overfitting. Suppose one distinctive sub-sequence is cove- 
red by overlapping intervals multiple times. Then this sub-sequence is im- 
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plicitly selected as classification criterium multiple times. To prevent this, 
we restrict the allowed overlap for the intervals used consecutively in a tree 
branch. 


Let .4,...,-%y_1 be the intervals used consecutively in one tree branch and let 
Jy be the interval which we want to use for splitting at the next node. Then 
the maximum relative overlap Omax for any of these intervals is given by 


N 
AN U A 


g P i=1, ix 
Omax ( EEEE WE gr cr 


(2) 


Omax can have values between 0 (no overlap) and | (at least one interval fully 
overlaps with others). At each new node in a tree branch Omax is calculated 
including the new interval we want to use. The new interval is only accepted if 
Omax does not exceed a threshold @. 


4 Evaluation 


4.1 UCR TSA Subset Selection 


The current iteration of our algorithm is computationally expensive due to the 
clustering and silhouette score computation. Therefore, for this early evalua- 
tion of the algorithm, a subset of the UCR TSA is selected. To be as objective as 
possible, we define a computational complexity score with which we rank the 
datasets and pick the first 25 datasets for our evaluation. We limit our selection 
to datasets of the 2015 version of the UCR TSA [31] because accuracies for 
the provided train-test-splits are available for these datasets on the UCR TSA 
website [32]. 


We define the complexity score S of a dataset as 


S=L-(P-N-D+k-Ik-N- LV? +g lp N-I) (3) 
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Table 1: The UCR TSA dataset subset selected for evaluation. 


No. Dataset No. Dataset 
1 ItalyPowerDemand 14 MiddlePhalanxTW 
2  SonyAIBORobotSurface 1 15 ProximalPhalanxTW 
3 SonyAIBORobotSurface2 16 DistalPhalanxTW 
4 MoteStrain 17  MiddlePhalanx- 
5 TwoLeadECG OutlineCorrect 
6 ECGFiveDays 18  DistalPhalanx- 
7 CBF OutlineCorrect 
8 SyntheticControl 19  ProximalPhalanx- 
9 ECG200 OutlineCorrect 
10 GunPoint 20 Plane 
11  ProximalPhalanx- 21 ArrowHead 
OutlineAgeGroup 22 Medicallmages 
12 MiddlePhalanx- 23 Coffee 
OutlineAgeGroup 24 Wine 
13  DistalPhalanx- 25 ToeSegmentation1 
OutlineAgeGroup 


with the number of classes n.. in the dataset, the maximal number of clusters 
k = max {10, 2:n.} to compute, the number of samples N, the time series 
length L, the number of iterations of the k-means algorithm Zg, and the number 
of iterations for barycentre calculation Jp of this dataset. The score is composed 
of the time complexity of the k-means++ [29] cluster centre initialization (first 
summand), the time complexity of the distance calculation to the cluster centres 
across all iterations (second summand), and the time complexity of the DBA 
across all iterations [27] (third summand). 


The 25 datasets with the lowest score S are listed in Tab. 1. It is important to 
note that selecting datasets by complexity ranking necessarily introduces a bias 
towards datasets with shorter time series and fewer training samples. However, 
for an evaluation of this early iteration of our algorithm, the selected datasets 
are sufficient to draw preliminary conclusions and point out future research 
directions. 
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Table 2: Important parameter settings of the TimeSeriesKMeans algorithm. 


Parameter Values Explanation 

n_clusters {2,...,max{10,2-n.}} Number of clusters. 
n.: Number of 
classes. 

max_iter 50 Iterations for 
k-means. 

metric dtw Metric to be used. 

max_iter_barycenter 10 Iterations for DBA. 

init k-means++ Cluster initialization 
method. 


4.2 Experiment Setup 


Important parameters of the TimeSeriesKMeans algorithm are listed in Tab. 2 
algonside the values we used. The limits for n_clusters, max_iter, and 
max_iter_barycenter were chosen to limit the computation time required 
by the algorithm. The parameters of the interval weighting function are set to 
a = 0.2 and B = 0.6. The threshold for the maximal allowed overlap Omax 
is set to 9 = 0.4 and a minimal gain ratio of 0.05 is required for a node split 
to be considered. For the current evaluation no hyperparameter optimization 
is considered and the allowed warping path for the DTW calculation has no 
additional restrictions. 


4.3 Results 


First, the performance of our interval-based decision tree (IBIT) and a 1-nearest- 
neighbour classifier with DTW as distance metric (INN-DTW) is compared in 

Fig. 3a. Each point represents accuracies for one dataset. Points above the 

dashed line indicate a better performance of IBIT. We expect an IBIT model to 

perform better than a simple INN-DTW model because it is based on the same 

underlying distance metric while having a more sophisticated decision process. 

However, for 16 out of 25 datasets the INN-DTW performance is better. 


Proc. 31. Workshop Computational Intelligence, Berlin, 25.-26.11.2021 101 


7 
IBIT better here 74 


> 0.8 > 0.8 
3 Q e 
5 5 ar 
3 0.6 3 0.6 e 
< < 
Č 0.4 Č 0.4 
(æ = 
Bor a 02 
0 0 
0 02 04 06 0.8 1 0 02 04 06 0.8 1 
(a) INN-DTW Test Accuracy (b) LS Test Accuracy 
1 1 
> 0.8 > 0.8 IBIT better here aA 
£ £ 7 ° 
3 3 o% 
0.6 3 0.6 
2 E 2, 
& 04 & 04 
E = 
E02 B02 
0 0 
0 02 04 06 0.8 1 0 02 04 06 0.8 1 
(c) HIVE-COTE Test Accuracy (d) TSF Test Accuracy 


Figure 3: Test accuracies of IBIT model compared to test accuracies of selected algorithms as 
reported on the UCR TSA website [32] on 25 UCR TSA datasets. 


This observation needs further investigating in the future. One possible reason 
for the lower performance of IBIT is the unsupervised clustering using k- 
means. For example, k-means clustering does not cope well with points which 
would be best clustered together but which are spread across a line in the 


feature space. 


In addition, by looking at the cluster results, we observe that the hard cut- 
off of the time series at the interval limits may lead to a clustering dominated 
by shapes close to the interval limits. These shapes may be present inside the 
interval or outside of it depending on the stretch of the time series. Fig. 4 shows 
an example of this phenomenon for the interval Z = [33..92] for the ECG200 
dataset. All time series posses steep slopes near the interval limits. However, 


102 Proc. 31. Workshop Computational Intelligence, Berlin, 25.-26.11.2021 


Value 
Value 


Value 
Value 


Figure 4: An example of a bad clustering due to the hard cut-off at the interval limits. The steep 
slopes at the limits of the interval do not always lie inside the interval. The presence or 
absence of these slopes inside the interval dominates the clustering result. Barycentres 
are displayed as solid lines. 


these sections of steep slope are not always captured inside interval .7 because 
some time series are more stretched than others. The presence or absence of 
these slopes inside the interval dominates the clustering result and leads to a 
limited meaningfulness of the clustering result. One possible solution to limit 
the influence of the values close to the interval limits is to apply a weighted 
DTW penalizing these values. This should be investigated in the future. 


Fig. 3b and 3c compare the IBIT performance to a shapelet-based approach 
(LS) [19] and an ensemble of classifiers including shapelet-based classifiers 
(HIVE-COTE). For 7 datasets LS and HIVE-COTE both achieve a classifica- 
tion accuracy close to 100% and the IBIT performance is not competitive for at 
least 3 of these datasets (TwoLeadECG, ECGFiveDays, SyntheticControl). 
All these datasets include approximately phase-aligned samples. Therefore, 
the low performance of IBIT on these datasets contradicts our expectations. A 
possible reason for the low performance of IBIT on these datasets is a selection 
of intervals which misses the important regions of interest in these time series. 
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This highlights the importance of interval selection. A further detailed analysis 
is required to come to a conclusive result in this case. 


A performance comparison to TSF, a random forest with simple statistics of 
intervals as features, is shown in Fig. 3d. Although TSF only uses simple 
features (mean, standard deviation, slope) it outperforms the IBIT accuracy on 
most datasets. TSF has two main differences to our decision tree classifier. 
First, at each node in a decision tree of the TSF ensemble a new selection 
of intervals is considered. Therefore, the algorithm evaluates more intervals 
than IBIT does. Second, an ensemble of decision trees is used increasing the 
evaluation of different features further. While considering more than O(L) 
intervals can be a suitable improvement to our algorithm, using an ensemble 
of decision tress cannot. This would lead to loss of interpretability of our 
models. 


Although the unmodified IBIT models do not achieve state-of-the-art perfor- 
mance, they have the advantage of being interpretable. This does not only mean 
that the models can be verified but it also means that the IBIT models can be 
improved iteratively. An expert can investigate the intervals and cluster results 
an IBIT model uses for its decision process and iteratively refine the intervals 
or can add new clustering results with modified configurations. For instance, 
an expert can identify the inappropriate clustering results shown in Fig. 4 and 
make suitable adjustments to the intervals. 


An evaluation of the tree complexities of 250 IBIT models trained on 10 diffe- 
rent subsets of the training data shows that most decision trees are not overly 
complex and can easily be interpreted and modified by an expert. Each model 
is trained on 80% of the available training data. Fig. 5 shows the tree depths of 
all 250 models investigated. Interestingly, none of these 250 models has a tree 
depth greater than six. Possibly this is due to the fact that we put a restriction 
on the maximum overlap of intervals and at some deeper nodes of the tree no 
new interval candidates are available. For this evaluation, we did not prune the 
decision trees and the same underlying intervals were selected. Variation of 
intervals and evaluation of pruning techniques is planned in the future. 


Fig. 6 shows the number of decision tree leafs across all 250 models. 50% 
of models have fewer than 11 leaves and 90% of models have fewer than 40 
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Figure 5: Decision tree depth counts of 250 trees from a 10-fold cross-validation for each of the 25 
datasets. 
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Figure 6: Decision tree leaf counts of 250 trees from a 10-fold cross-validation for each of the 25 
datasets. 


leaves. Only 10% of models have more than 40 leaves making them hard or 
at least tedious to interpret. This supports the hypothesis that IBIT models can 
be iteratively improved by an expert. This also shows that the learned decision 
trees are shallow but wide decision trees. 


5 Conclusion and Outlook 


In this paper we presented an algorithm to train interval-based interpretable 
decision trees. The algorithm is designed to create easy to interpret models 
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which can be iteratively improved by an expert. Modifications to improve the 
models can be identified and applied by an expert because of the inherent and 
global interpretability of the models. The simplicity of the resulting decision 
trees and the intuitive features help achieve this goal. 


Although the algorithm does not achieve state of the art in terms of accuracy, 
it is important to note that accuracy is not the single most important criterium 
in all circumstances. Interpretable models can be analysed and verified by 
experts easily and spurious correlations in the data learned by the model can be 
identified and prohibited. Interpretable model are easy to improve iteratively 
to achieve certain goals and optimisation is not restricted to a single metric, 
e.g. the accuracy score. To investigate this hypothesis, cases studies where 
IBIT models are improved iteratively are a future field of research. 


The evaluation presented in this paper shows preliminary results and a more 
comprehensive study is planned in the future. Once a more comprehensive 
study is done, we also plan to publish the code of our algorithm to make the 
results as reproducible as possible for the research community. 


Further improvements to the algorithm we plan to investigated are 


e extending the features by interpretable shapelet-based features to include 
phase-independent features, 


improving the scalability of the clustering through pruning strategies [33] 
or using a clustering strategy based on autocorrelation [34], 


applying pruning strategies to the decision trees, 


using weighted DTW to penalize values near interval limits, 


e and optimising hyperparameters of the algorithm. 
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Abstract 


Deep Neural Networks (DNNs) are able to solve many complex tasks with 
less engineering effort and better performance. However, these networks often 
use data for training and evaluation without investigating its representation, 
i.e. the form of the used data. In the present paper, we analyze the impact 
of data representations on the performance of DNNs using energy time series 
forecasting. Based on an overview of exemplary data representations, we select 
four exemplary data representations and evaluate them using two different 
DNN architectures and three forecasting horizons on real-world energy time 
series. The results show that, depending on the forecast horizon, the same 
data representations can have a positive or negative impact on the accuracy of 
DNNs. 
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1 Introduction 


Deep Neural Networks (DNNs) can better solve complex tasks such as image 
classification [1, 2], object detection [3], or instance segmentation [4, 5] with 
less effort than traditional approaches. Nevertheless, DNNs require data for 
training and evaluation. However, data is often used by DNNs without further 
investigation of different data representations. 


Since data representations influence what DNNs learn and which architectures 
can be used, data representations should be investigated further. The represen- 
tation of the data can be changed through transformations such as reshaping, 
aggregation, or selection. Although recent literature, including work on feature 
engineering [6, 7, 8], introduces new data representations and compares them 
[9, 10, 11, 12, 13], it does not systematically investigate the influence of data 
representations on the performance of DNNs. 


In this paper, we analyze the impact of data representations on the performance 
of DNNs at the commonly investigated example of energy time series forecas- 
ting (see e.g. [14, 15, 16, 13]). For this purpose, we investigate the time series 
in its original form and the derivative of the time series, and both reshaped as 
an image. For the analysis, we use two different architectures, namely a Fully 
Connected Network (FCN) and a Convolutional Neural Network (CNN). 


The remainder of the paper is structured as follows. In the second chapter, 
we introduce different transformations for data representations. In the third 
chapter, we present an energy forecasting use case to demonstrate the impact 
of different data representations. In the fourth chapter, we discuss the findings 
of this paper, before we finally give a conclusion. 


2 Transformations for Data Representations 


In this chapter, we introduce different transformations for changing data re- 
presentations based on the data types vectors or matrices. Transformations 
allow to convert data from one data representation to another. Unlike data 
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Figure 1: Relationship between data representation, data type, transformation, and context. A 
transformation converts a data representation into another, while a data representation 
is a data type and depends on a context. 


types, data representations are context dependent and thus are typically diffi- 
cult to characterize. For comprehensibility, we thus present transformations, 
which are per se context independent (see Figure 1). For the present paper, we 
consider reshaping, selection, aggregation, differences, convolution, rescaling, 
clustering, and latent space transformation as exemplary transformations for 
converting data from one representation into another. For each transformation, 
we briefly describe its key idea and underlying concept. 


Reshaping Vectors and matrices can be transformed by changing their shape. 
This reshaping allows the use of different model architectures. Reshaping is 
defined by a function that maps each element of a vector or matrix to a resulting 
vector or matrix with a different dimensionality. 


Selection Data representations can be transformed by selecting specific ele- 
ments. To select certain elements, one can specify the related indices, which 
then define a subset of the considered vector or matrix. Choosing specific 
elements of a vector or matrix can be beneficial because a data representation 
can contain unnecessary information. 
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Aggregation The aggregation of data can be used as a transformation for data 
representations. Aggregations can help a DNN to achieve higher performances 
because aggregations can, for example, reduce the dimensionality and noise 
in the data. They can be applied on single vectors or matrices along one or 
more axes, leading to a matrix or vector depending on the dimensionality of 
the input. 


Differences Calculating the differences is similar to the discrete derivation 
and can be applied to vectors and matrices. The data is transformed by sub- 
tracting the values of certain points or axes, vectors, or matrices depending on 
the input data representation. For vector inputs, the difference between certain 
points is calculated. For matrix inputs, the differences are calculated for certain 
subvectors or submatrices depending on the dimensionality of the matrix and 
along which axis the differences should be calculated. 


Convolution A convolution is a mathematical operation that combines two 
functions. The convolution, e.g. a frequency filter, can be described by a kernel 
that is multiplied iteratively over the input data and summed afterward. Both 
the kernel and the input data can be vectors or matrices. 


Rescaling The representation of data can be transformed by fitting a function 
on the data and resampling from that function. Thereby, data can be upscaled or 
downscaled, where upscaling increases and downscaling decreases the amount 
of data. Exemplary methods to approximate the underlying function are linear, 
cubic, or spline interpolation. 


Clustering Data can also be clustered such that it is represented by clus- 
ter representatives. The cluster representatives are determined by similarity 
measures based on, for example, density or distances. Common clustering 
approaches are k-Means [17], fuzzy c-means [18], BIRCH [19], OPTICS [20], 
or DBSCAN [21]. 
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Latent Space Transformation Latent space transformations learn a latent 
data representation of a dataset. This latent data representation has a lower 
dimensionality as the original dataset and could be a vector or matrix data 
representation. There are several approaches to use the latent space information 
and reduce the dimensionality like Principal Component Analysis [22], Linear 
Discriminant Analysis [23], or Autoencoder [24]. 


3 Energy Forecasting Use Case 


In this chapter, we show how data representations affect the forecasting accu- 
racy of a Deep Neural Network (DNN) when forecasting the German electricity 
demand and using four different data representations, namely naive, naive 
differences, reshaped, and reshaped differences. In the following, we first 
describe the data for this use case and the data representations. Afterward, we 
present the selected baselines and DNN architectures to forecast the electricity 
demand. In the last section, we present the results and compare the evaluated 
data representations. 


3.1 Data 


For the electricity demand, we use data from the European Network of Trans- 
mission System Operators for Electricity provided by Open Power System 
Data [25]. We select the electricity demand for Germany from the beginning 
of 2015 up to the end of 2019, which is the last complete year of data. The data 
contain typical daily, weekly, and seasonal patterns, which we account for with 
the help of calendar information. As calendar information, we use hour, day of 
week, day of year, weekend, and holiday, where the first three are encoded as 
sine and cosine functions and the last two are encoded as Boolean variables. 


3.2 Evaluated Data Representations 


This section describes the four data representations chosen to analyze the im- 
pact of data representations on the forecasting performance of DNNs, i.e. the 
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Figure 2: The naive data representation that comprises the electricity demand of the past 168 hours 
shown for the exemplary forecast origin 18.03.2019. 


naive, the naive differences, the reshaped, and the reshaped differences data 
representations. Overall, this selection results in two vector-based and two 
matrix-based data representations. These data representations are used as in- 
put for the evaluated DNN architectures, whose output also depend on these 
representations. 


Naive The naive data representation comprises the vector of the last 168 
hours of the electricity demand (see Figure 2). It is defined as 


Xk 


Xk-167 


where x € X is the set of historical electricity demand values and k the forecast 
origin. 


Naive Differences The naive differences data representation is again com- 
prised of a vector of the last 168 hours of the electricity demand. However, 
instead of using the raw values as in the naive data representation, we now use 
differences. The lag of these differences depends, in our case, on the forecast 
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Figure 3: The naive differences data representation that comprises the electricity demand 
differences with h = 1 ofthe past 168 hours for the exemplary forecast origin 18.03.2019. 


horizon, e.g., for a one-day ahead forecast, we calculate differences with a 
lag of one day. An exemplary week is illustrated in Figure 3 and the data 
representation is then defined as 


Ak TAk-h 


Xk-167 7 Xk-167-h 


where x € X is the set of historical electricity demand values, k the forecast 
origin, and h the lag used for differencing that we set as the forecast horizon 
(e.g. 1, 24, 168). 


Reshaped The reshaped data representation uses the naive data representa- 
tion and reshapes it into a two-dimensional matrix such that each row repre- 
sents a day. Consequently, the reshaped data representation consists of a 7x24 
dimensional matrix (see Figure 4) and is defined as 


Xk Xk see Ak_23 
(3) 


Xk-167 Xk—144 ++ Xk-167 
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Figure 4: The reshaped data representation that comprises the electricity demand of the past 168 
hours shown for the exemplary forecast origin 18.03.2019. 


where x € X is the set of historical electricity demand values and k the forecast 
origin. 


Reshaped Differences The reshaped differences data representation is equi- 
valent to the reshaped data representation but uses the naive differences data 
representation as its basis. The reshaped differences data representation, there- 
fore, also consists of a 7x24 dimensional matrix (see Figure 5 for an exemplary 
week) and is defined as 


Xk — Xk—h Xk — Xk—h <+- Xk—23 — Xk—23—h 
e : $e : » 4) 
Xk—167 — Xk—167—h Xk—144 — Xk—144—h +++ Xk—167 — Xk—167—h 
where x € X is the set of historical electricity demand values, k the forecast 


origin, and h the lag used for differencing that we set as the forecast horizon 
(e.g. 1, 24, 168). 
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Figure 5: Exemplary week of the reshaped differences data representation that reshapes the 
electricity demand differences with h = 1 of the past 168 hours as a 24x7 matrix for 
the exemplary forecast origin 18.03.2019. 


3.3 Experimental Setup 


In this section, we introduce the evaluated DNN architectures and the selected 
baselines before we describe the experimental setup including the train valida- 
tion test split, the considered forecast horizons, the number of performed runs, 
the used evaluation metrics, and the implementation. 


To investigate the impact of data representations in energy time series forecas- 
ting, we use two DNNs (see Figure 6). The first DNN is a Fully Connected 
Network (FCN). It only consists of fully connected layers, whose input is 
a vector of historical energy data. This FCN is applied to both naive data 
representations. The second DNN is a Convolutional neural network (CNN). It 
consists of convolutional layers followed by fully connected layers that process 
the energy time series as a matrix. This CNN is applied to both reshaped data 
representations. 


The FCN consists of two parts. The first part processes the energy time series 
vector input into a 64 dimensional latent vector representation and consists of 
two layers. The second part joins the 64 dimensional latent energy vector with 
the calendar feature vector and processes the concluding vector to the single 
forecast output. 


Proc. 31. Workshop Computational Intelligence, Berlin, 25.-26.11.2021 121 


128 FC FC 


Input = 
168 = 128 
Join 
Energy 64+8 FC 
Time Series 64 
Input Output 
$ 1 


Calendar Features 


(a) Fully Connected Network (FCN) 
Convolution MaxPooling Flatten 
32@3x3 2x2 192+8 
Convolution 
MaxPooling 
16@3x3 
Input Pio 2x2 FC 
24x7 128 
FC 
Reshaped Energy O $4 
Time Series [= 
m; 
Ema Output 
1 
Input 
8 
Calendar Features 


(b) Convolutional Neural Network (CNN) 


Figure 6: DNN architectures used for forecasting the energy time series, where the numbers 
indicate the number of neurons in the fully connected layers and the number of features 
with the corresponding kernel sizes in the convolutional layers (separated with @). 


The CNN is also split into two parts. The first part processes the reshaped 
energy time series with two stacked convolutional layers. This first part results 
in a latent representation of matrices, which is then flattened and joined with 
the calendar features. The second part processes the vector-based latent re- 
presentation of the energy time series and calendar features with three hidden 
layers. 


As baselines for the general forecasting result, we choose two linear regression 
models that forecasts the electricity demand based on selected past electricity 
demand or rather electricity demand difference values and calendar features. 
For the electricity demand, we use the same data as for the naive data represen- 
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tation. Analog for the electricity demand differences, we use the same data as 
for the naive differences data representation. Regarding the calendar features, 
we use the same calendar features as for the FCN and CNN models. Thus, the 
linear regression for the electricity demand is defined as 


167 8 
Xen = A+ £ Bixk-i + y YjCk+h, j» (5) 
i=0 j=1 


where x € X is the electricity demand, c € C the calendar features, and h the 
forecast horizon. For the electricity demand differences the linear regression is 
defined as 


167 8 
Alma) = A + $ Bilki Xk-i-n) + Y Yicktnj» (6) 
i=0 j=l 


where x € X is the electricity demand, c € C the calendar features, and h the 
forecast horizon. 


To apply the mentioned architectures and benchmarks, we run the following 
setup: Regarding the train-validation-test split, we use the years 2015 to 2017 
for training, 2018 for validation, and 2019 for testing. With regard to the 
forecast horizon, we forecast a specific hour for each model, i.e. one-hour, 
one-day, and one-week ahead. We evaluate the forecast horizons with the Mean 
Absolute Error (MAE) defined by zu bh, where y; is the ground truth and y; 
the prediction. For each combination of the four evaluated data representations 
and the three forecast horizons, we run the respective network with ten different 
seeds. We report the mean and standard deviation of these ten runs and use this 


mean to calculate the relative advantage in percent compared to the naive data 
MAE compare =) 1 


representation, i.e. 
P i MAE naive 


The whole experimental setup is implemented in Python. For this purpose, we 
use PyTorch [26] for realizing the DNN architectures and pyWATTS [27] for 
defining a reproducible and reusable pipeline. The implementation is available 
on GitHub!. 


| https ://github.com/KIT- IAI/SmartDataRepresentations 
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Table 1: Forecasting MAE results of the four evaluated data representations in GW for the three 
selected forecast horizons. For the naive and naive differences data representations, we 
use the FCN, while we apply the CNN for the reshaped and reshaped differences data 
representations. 


Data Representations 


Forecast Horizon Naive Naive Differences Reshaped Reshaped Differences 


One-Hour 0.420 + 0.025 0.376 (-10.3%) + 0.027 0.531 (+26.5%) + 0.015 0.385 (-8.3%) + 0.003 
One-Day 1.197 + 0.128 1.289 (+7.6%) + 0.118 1.209 (40.9%) + 0.017 1.240 (43.5%) + 0.010 
One-Week 1.677 + 0.084 1.775 (+5.8%) + 0.102 1.742 (43.9%) + 0.028 1.820 (+8.5%) + 0.012 


3.4 Results 


In this section, we present the results of the evaluated data representations 
regarding the energy time series forecast. For the 2019 test data, we report 
the results for the one-hour, the one-day, and the one-week ahead forecast (see 
Table 1). In addition, for all forecast horizons, we consider the naive data 
representation as a benchmark. More specifically, we compare the mean of all 
runs of each data representation to this benchmark before comparing the best 
data representations to the baseline. 


For the one-hour ahead forecast, the naive differences data representation is 
best with an improvement of 10%. In contrast to this data representation, 
the reshaped data representation reduces the forecasting accuracy up to 27%. 
The reshaped differences data representation performs similarly as the naive 
differences data representation with an improvement of 8% compared to the 
naive data representation. 


For the one-day ahead forecast, the naive data representation performs best, 
while the reshaped data representation performs quite similar with a higher 
MAE of 1%. The naive differences, and reshaped differences data representa- 
tions reduce the forecasting performance between 3% to 8%. 


For the one-week ahead forecast, the naive data representation is the best 
performing data representation. The reshaped data representation has a 4% 
higher MAE. However, both data representations based on differences, namely 
the naive differences and the reshaped differences data representations, perform 
worse than the naive data representation with higher MAEs between 5% and 
9%. 
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Table 2: Forecasting MAE results of the baseline and the best evaluated data representations in 
GW for the three selected forecast horizons. For the baseline, we employ a linear 
regression. For the naive data representation, we use the FCN, while we apply the CNN 
for the reshaped differences data representation. 


Forecast Horizon Baselines Best Data Representation 
Naive Naive Differences 
One-Hour 0.506 0.470 0.376 (-20.0%) + 0.027 Reshaped Differences 
One-Day 1.639 1.691 1.197 (-27.0%) + 0.128 Naive 
One-Week 1.975 2.128 1.677 (-15.1%) + 0.084 Naive 


For all forecast horizons, the best evaluated data representation performs better 
than the selected baselines. For example, the reshaped differences data repre- 
sentation improves the forecasting accuracy by at least 20% for the one-hour 
ahead forecast. The naive data representation obtains a 27% better forecasting 
accuracy for the one-day ahead forecast compared to the best performing ba- 
seline. For the one-week ahead forecast, the naive data representation achieves 
an 15% better forecasting accuracy. We additionally run the naive and naive 
differences data representation experiments on a simple Multilayer Perceptron 
(MLP) with one hidden layer consisting of ten neurons and achieve similar 
results as for the linear regression model. 


4 Discussion 


This section discusses the results of the energy forecasting use case. Our results 
show that the evaluated data representations, despite essentially containing the 
same information, result in different accuracies in the energy forecasting use 
case. Although the reshaped and the reshaped differences data representations 
are based on a similar concept, only the reshaped differences data representa- 
tion outperforms the naive benchmark in the single case of the one-hour ahead 
forecast. Furthermore, depending on the forecast horizon, the data represen- 
tations perform differently. Nevertheless, there is no data representation that 
offers the best forecasting accuracy for all evaluated forecast horizons. For 
example, the naive differences data representation is the best data represen- 
tation for one-hour ahead forecasts. However, for the one-day and one-week 
ahead forecast, the naive data representation performs best. As a consequence, 
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it should be investigated in which way various data representations influence 
the forecasting accuracy of Deep Neural Networks (DNNs) and how they are 
affected by different forecast horizons and architectures given a specific use 


case. 


In the evaluated energy forecasting use case, we consider four data repre- 
sentations and two DNN architectures. For these data representations and 
architectures, our results show that the forecasting accuracy varies. However, 
the ambiguous results do not allow for a general statement regarding the impact 
of data representations on the performance of DNNs. Moreover, the considered 
use case does not provide insights on the transferability of the results to other 
not yet evaluated data representations and to use cases from other domains. 
In addition, this work only investigates the impact of data representations on 
the accuracy of DNNs but does not examine other relevant metrics such as 
computational effort, robustness, or interpretability. Altogether, one should 
investigate further data representations, architectures, and use cases with regard 
to various metrics. 


5 Conclusion 


The present paper analyzes the impact of data representations on the perfor- 
mance of Deep Neural Networks (DNNs) at the example of energy time series 
forecasting. Based on an overview of exemplary data representations, we select 
four different data representations, namely the naive, the naive differences, 
the reshaped, and the reshaped differences data representation. We evaluate 
these data representations using two different DNN architectures and three 
forecasting horizons on real-world energy time series. 


The results show that, depending on the forecast horizon, the same data repre- 
sentations can have a positive or negative impact on the accuracy of DNNs in 
the considered energy forecasting use case. Overall, there is no best performing 
data representation for all forecasting horizons. For example, reshaping the 
energy time series decreases the forecasting accuracy up to 27% compared to 
the naive data representation. However, reshaping the differences of the energy 
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time series is beneficial for one-hour ahead forecasts and yields an up to 8% 
higher forecasting accuracy compared to the naive data representation. 


In future work, we plan to investigate the impact of various data representations 
on DNNs for datasets from different domains and other DNN architectures. In 
the case of energy forecasting, for example, data representations for additional 
information like weather could be investigated. For datasets from the given 
and other domains, the impact of data representations could also be evaluated 
regarding the problem complexity and dataset size as well as other metrics such 
as computational effort and interpretability. Furthermore, one could verify the 
results reported in the present paper using different DNN architectures and 
datasets. Lastly, it could be interesting to also investigate data representations 
within DNNs and probabilistic data representations. 
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1 Einfuhrung 


In diesem Beitrag werden GauBsche Prozessmodelle (GPM) zur Systemiden- 
tifikation und zur Simulation nichtlinearer dynamischer Systeme vorgestellt. 
Gaußsche Prozessmodelle sind in Standardform für deterministische Regresso- 
ren definiert und liefern eine Normalverteilung als Ausgangsgröße. Durch die 
Varianz einer Prädiktion lässt sich, im Gegensatz zu vielen anderen Methoden 
aus dem Bereich des maschinellen Lernens und der Systemidentifikation, ihre 
Vertrauenswürdigkeit abschätzen. Im Falle einer Simulation von dynamischen 
Systemen in Output-Error-Anordnung mit Gaußschen Prozessmodellen müs- 
sen daher Normalverteilungen der Ausgangsgröße verzögert als Eingangsgröße 
zurückgeführt werden. In diesem Beitrag werden Verfahren aus der Literatur 
vorgestellt, um bei Modellen mit stochastischen Eingangsgrößen zu arbeiten 
und diese Konstellation auf die Eignung für die Systemidentifikation hin zu 
untersuchen. Die Untersuchung erfolgt dabei an einem künstlichen System 
und einem realen Eintank-Laborsystem mit zwei Eingangsgrößen und einer 
Ausgangsgröße. 
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2 Gaußsche Prozessmodelle 


Gaußsche Prozessmodelle gehören zur Klasse der kernelbasierten, nichtpara- 
metrischen Modelle und sind besonders für hochdimensionale Probleme bei 
verhältnismäßig wenig Daten geeignet. Mit GPM lassen sich beliebige stati- 
sche Nichtlinearitäten der Form y = f(x) darstellen. Die Annahme dabei ist, 
dass Ähnlichkeiten im Eingangsraum x sich auch im Ausgangsraum y wieder- 
finden. Um diese Ähnlichkeit zu beschreiben, wird eine Kernel- oder Kovari- 
anzfunktion verwendet. 


Bei GPM wird angenommen, dass jede endliche Menge von N Auswertungen 
einer Zufallsfunktion [f(x1), f (x2), -.., f(xv)] einer multivariaten Gaußvertei- 
lung folgt und als Wahrscheinlichkeitsdichtefunktion geschrieben werden kann 


[3]: 
P(f (X)|X) =~ (my,L;) (1) 


X ist die Matrix bestehend aus allen Vektoren der Eingangsgrößen (X = [x1,..., 
xy"). f(X) ist der Vektor der ungestörten Beobachtungen. my sind die Erwar- 
tungswerte und Xp die Kovarianzmatrix des GPM. Eine Funktion, die einen 
Gauß-Prozess darstellt, wird geschrieben als: 


Da meistens keine Informationen über den Erwartungswert eines Gauß-Pro- 
zesses vorliegen, wird mr = 0 angenommen. Die Kovarianzmatrix X}; wird 
über die Kernelfunktion k(x;,x;) erzeugt und dann Kernelmatrix K genannt. Da 
im Kernel ein normalverteilte Rauschannahme getroffen wird, wird im Zusam- 
menhang mit der Kernelmatrix K im Folgenden y verwendet. Die getroffene 
Annahme ist y = f(X) +. (0,01). Die einzelnen Beobachtungen werden als 
yı bis yy notiert. Unter Beachtung von (2) ergibt sich so: 


y~ N (0,K) (3) 


Der gebräuchlichste Kernel ist der Squared-Exponential (SE)-Kernel. Wird er 
mit einem freien Parameter pro Eingangsdimension d € 1...D ausgestattet, so 
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wird er als Automatic-Relevance-Determination Squared-Exponential (ARD- 
SE) Kernel bezeichnet und wird beschrieben durch: 


d=1 


12 (xia xja’ 
Ka) = o} -ex ( 5 y (i, 2 ja) +0675; (4) 


Of, I, und On sind freie Hyperparameter. o ist ein Skalierungsfaktor für den 
Kernel, l4 ein Skalierungsfaktor pro Eingangsdimension und 07 beschreibt die 
geschätzte Varianz, welche auf den Beobachtungen erwartet wird. Ein GPM 
wird durch Anpassung seiner Hyperparameter trainiert, sodass die Beobach- 
tungen (X,y) bestmöglich erklärt werden. Eine Vorgehensweise dazu ist die 
Hyperparameter über Maximierung der Marginal-Log-Likelihood: 


N 1 1 
In p(y|X) = =, In(2rx) — 5 In(detK) — sy K ly (5) 


auszulegen. Da alle Beobachtungen und auch die Vorhersage eines GPM als 
normalverteilte Zufallsvariable aufgefasst werden, gilt folgende Verbundver- 


(6) 
(7) 


teilung der Zufallsvariablen y und yx: 
k(X,X) k(X,x.) 


y 
G +(o k(x,,X) k(X«,Xx) 


y K k, 
Allee 


yı K(x1,X1) k(x1,X2) ... k(t1,xn) Klxı,X) 

y2 k(x2,x1) k(x2,x2) ... k(x2,%n) k(x2,Xx) 
„slo| _.. US” chide ahi iG (8) 

YN k(xy,x1) k(xn, X2) ... klan,an) k(x3,Xx) 

Yx k(x,X1) k(xx,x2) k(x, xN) k(Xx, Xx) 


Dabei ist x, der Vektor der Eingangsgrößen für den zu prädizierenden Wert y+. 
Die bedingte Wahrscheinlichkeitsverteilung für y, gegeben x,,X und y wird 
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damit zu: 


PO» x..,X,y) = N (k(&,X)k(X,X)'y, 
k(x ,X%) — ki, X)k(X,X) 'k(X,x,)) (9) 
N (ky Koy, kss — kK KT) (10) 


Für einen beliebigen Regressorenvektor x. ist der Erwartungswert der Prädik- 
tion y, somit gegeben durch: 


E(y,)= u) =kuK'y (11) 
und die Varianz durch: 
= pee = —1,T 
Var (yx) = 07 (xx) = kus —k Kk, (12) 


Für eine detaillierte Herleitung und weitreichendere Erklärungen sei auf die 
Literatur verwiesen [1, 18, 3]. 


3  Systemidentifikation mit Gaußschen 
Prozessmodellen 


Gaußsche Prozessmodelle sind in Standardform für deterministische Regres- 
soren definiert (vgl. Bild 1 links). Für Eingangsgrößen, welche beim Training 
mit einem mittelwertfreien Rauschen behaftet sind, kann diese Anforderung 
verletzt werden ohne größere Auswirkungen auf die Unsicherheitsabschätzung 
der Ausgangsgröße zu haben. Im Falle einer Simulation oder beim Training 
in Output-Error (OE)-Anordnung von dynamischen Systemen mit Gaußschen 
Prozessmodellen müssen jedoch Normalverteilungen der Ausgangsgröße ver- 
zögert als Eingangsgröße zurückgeführt werden (vgl. Bild 1 rechts). Eine Ver- 
nachlässigung der Unsicherheit durch Einschränkung auf den Erwartungswert 
als Eingangsgröße führt zu unrealistisch kleinen Unsicherheiten der Prädiktion 
mit fortschreitender Simulationszeit. 


In [6] wurde erstmals eine Taylorreihenentwicklung und eine Monte-Carlo- 
Integration vorgestellt, um GPM mit normalverteilten Eingängen zu realisie- 
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Xx = Mz Yx Zs ~ N (Hz, Èz) x 


oo GPM > >| GPM Fe 


Bild 1: GPM mit links: deterministischem Regressor rechts: normalverteilter Zufallsgröße als 
Regressor (stochastisch) 


ren. In der Arbeit [5] wurde darüber hinaus eine näherungsweise Lösung mit 
exakten Momenten vorgestellt. Stochastische Eingänge werden dabei über das 
Lösen des Integrals: 


P Y= | X,Y, Mz, Zz) = Joo |X,y,2.)p (Zx | Uz, £z) dz» (13) 
2 
1 (yx — u(2«)) ) (14) 


mit: x X,Y, Zx) = —— ex 
PO» | X,Y,Z) aki p( a BE) 


realisiert (vgl. (10) fiir den Fall eines deterministischen Regressors). Um den 
Unterschied zum deterministischen Regressor x, zu verdeutlichen, wird der 
Zufallsvektor im Folgenden als z, mit den Erwartungswerten ft, und der Ko- 
varianzmatrix Z, bezeichnet. u (z) bezeichnet dabei die Funktion für den Er- 
wartungswert eines GPM gegeben durch (11) und 0?(z,) die Varianz gegeben 
durch (12). 


Durch die Berechnung des Integrals (13) lässt sich die Information über die 
Unsicherheit der Prädiktion auch bei der Simulation mittels Einschrittprädik- 
tor näherungsweise erhalten. In Bild 2 wird das Vorgehen für die ersten drei 
Simulationsschritte im Blockschaltbild gezeigt. 


Die neue prädiktive Verteilung ist wegen der Integration über den Regresso- 
renvektor nicht mehr gaußverteilt und daher nur noch approximativ lösbar [5]. 
Im Folgenden werden drei Verfahren vorgestellt, um (13) zu lösen. 
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— e+ 


GPM(0,K) 


—| Ir+2 


GPM(0,K) 


— S143 


GPM(0,K) I 
N ( a ba 0 | ) 
: Srl’ 0 var(Jr+1) 


Bild 2: Vorgehen für Propagation der Unsicherheit bei der Simulation eines dynamischen Modells 
mit zwei verzögerten Ein- und Ausgangsgrößen als Regressoren mittels Einschrittprädiktor 
für die ersten drei Simulationsschritte 


3.1 Naherung mittels Monte-Carlo-Integration 


Mittels Monte-Carlo-Integration [8] können hochdimensionale Integrale der 
Form: 


A= | plx)f(x)dx (15) 


XEQ 


approximativ gelöst werden. Wobei p(x) das statistische Gewicht und f(x) den 
Wert zum Zustand x aus dem Zustandsraum Q beschreibt. Im Fall einer Stich- 
probe |sı,52,...,85] € Q, welche die Häufigkeitsverteilung von p(x) abbildet, 
gilt für große S: 


1 N 
LEI (si) (16) 
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Übertragen auf GPM wird eine Stichprobe S benötigt, welche die Verteilung 
der Regressoren näherungsweise abbildet: 


[81,82,...,85| ~ N (Hz, £z) (17) 


damit kann (13) näherungsweise durch: 


S 
esp (yx [X,Y s) = sh (ul 0°(s)) (18) 
=1 


ee 


p Oz |X,y,4:,%; 


gelöst werden. u (s;) bezeichnet dabei die Formel für den Erwartungswert eines 
GPM gegeben durch (11) und o? (si) die Varianz gegeben durch (12). 


3.2 Näherung mittels Taylorreihenentwicklung 


Auch eine Taylorreihenentwicklung kann zur Approximation des Integrals ge- 
nutzt werden. Wie in [6] gezeigt wird, liefert ein Taylorpolynom erster Ord- 
nung für den Erwartungswert keine zusätzliche Korrektur über der nullten Ord- 
nung, da die Funktionsableitungen zu Null werden. Daher bleibt der Erwar- 
tungswert näherungsweise bei: 


E (yx) = u (z+) ~ K(e,X Ky (19) 


Für die Varianz wird in [6] ein Taylorpolynom zweiter Ordnung gewählt: 


z.) 
er (20) 


Var.) = 0°) © 0°(n.) + Zir eg 
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AU (zx) AK (Zx) 


tt. aa 1 
mit: ra Pe K y 
0°07 (z)  O7K(Zx,2%) „Ək(zx,K) pi Ok(K,Z«) 
O2xd One u OZx40Zxe OZnd One 
O?k(e.,K) p 
—2— IK UR(K, 2 
024402xe ( a) 


Die partiellen Ableitungen müssen nach Regressordimension d,e € 1...D er- 
folgen und sind vom Kernel abhängig. Für eine detaillierte Herleitung sei auf 
[5] verwiesen. 


3.3 Naherung mittels exakter Momente 


Wie [5] zeigt, ist es für den ARD-SE-Kernel möglich, das Integral (13) für 
stochastische Regressoren exakt zu bestimmen. Dabei wird das Integral (13) 
analytisch exakt gelöst, jedoch nicht die Erwartungswert- u (z+) und Varianz- 
funktion o? (z4). Der Erwartungswert ist gegeben durch: 


E (yx) =u)=(K'y)'q (21) 


mit: q” =(491,92,--.9NJ, 
1 2 
qi= oh EA exp (50-6) 
Die Varianz kann mit: 


Var(yx) = 0° (z+) = (K'Y) O(K y) — u (z+) +07 -tr (K'O) +0, (22) 


it: u k(zi,Hz)k(H:,2j) 1/1 l l T 
mit: Qij a VEZA +I] exp 5 5 (zi +2;) — U; 


DE GR | 
(&:+54°) LA (Gera-n)) 
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u 
N 
y 
> von 


Kompressor Druckbehälter Kugelhahn 


Bild 3: Schematischer Aufbau als Rohrleitungs- und Instrumentierungsschema 


ir 20 ] 
mit: A'=|...... 
| Di u >| 
bestimmt werden. Für die vollständige Prädiktion, welche Erwartungswert und 
Varianz beinhaltet, müssen q € Ryxı und Q € Ryxn bestimmt werden. A=! 


ist der „Parametervektor“ der Längenparameter des ARD-SE Kernels in Form 
einer Diagonalmatrix. 


3.4 Naive Einschrittprädiktion 


Bei der naiven Einschrittprädiktion wird ein GPM, wie bei der klassischen 
Regression, nur mit deterministischen Regressoren verwendet. Die prädizier- 
ten Ausgangsgrößen, welche verzögert als Eingangsgrößen verwendet werden, 
werden ausschließlich durch ihren Erwartungswert beschrieben. 


4 Fallstudie: Kompressor-Druckbehälter-System 


Im ersten akademischen Fallbeispiel (Simulationsstudie) wird ein System be- 
trachtet, welches sich an einem Kompressor orientiert, der einen Druckbehäl- 
ter befüllt. Außerdem befindet sich am Druckbehälter ein teilgeöffneter Ku- 
gelhahn. Der Aufbau ist als Rohrleitungs- und Instrumentierungsschema in 
Bild 3 dargestellt. Die Leistung des Kompressors wird über das Steuersignal 
u reguliert. Die abhängige Variable ist der Druck y im Druckbehilter. Das fol- 
gende Modell hat keinen Anspruch physikalisch akkurat zu sein und ist durch 
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3 | |--- Steuersignal u 
—— wahre Funktion y 
- Beobachtungen k 
2 A 
| Bes = He Zu a ar al ` 
Eee a rear 
0 a ian wa 24 | rote ı_| ; te 
— - - — - - - - — 
0 20 40 60 80 100 120 140 160 180 
Zeit in Sekunden 
Bild 4: Trainingsdatensatz A, u € [0, 1] 
A 
- - - Steuersignal u 
2 Bu 


—— wahre Funktion y 
Beobachtungen 


ee? 


20 40 60 80 100 120 140 160 180 
Zeit in Sekunden 


Bild 5: Trainingsdatensatz B, u € [0, 0,5] 


folgende Differentialgleichung gegeben, die bekannte Phänomene beschreiben 
sollen: 


Y(t) = 1 —exp(—2au(t)*) —0,1(y(t)? — 1) 
(23) 
y(t) +0,1y(t)? = 1,1 — exp(-2ru(t)*) 
Nach der Festlegung auf 6 verzögerte Eingangsgrößen (yr, ---, Yt—6, Ur, ---„Ur-6) 
zur Prädiktion von y;+;, Auswahl des ARD-SE-Kernels und des Downhill- 
Simplex-Suchverfahren zur Optimierung der Kernelparameter werden nun Si- 
mulationen anhand von zwei verschiedenen Trainingsdatensätzen verglichen. 
Die Trainingsdaten wurden erzeugt in dem die Differentialgleichung mit einer 
Simulationsschrittweite von 0,001 s mit dem expliziten Euler-Verfahren simu- 
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=== Steuersignal u 
u. wahre Funktion y 

95% Konfidenzintervall 
—— naive Einschrittsimulation 


0 = - - Ma > 
0 2 4 6 8 10 12 14 16 18 20 22 24 
Zeit in Sekunden 


Bild 6: Simulation einer Steuerfolge bei naiver Einschrittsimulation unter Verwendung von 
Trainingsdatensatz A 


=== Steuersignal u 
.. wahre Funktion y 

95% Konfidenzintervall 
—— naive Einschrittsimulation 


. `a 4 === = 


0 = — - - - —— 


0 2 4 6 8 10 12 14 16 18 20 22 24 
Zeit in Sekunden 


Bild 7: Simulation einer Steuerfolge bei naiver Einschrittsimulation unter Verwendung von 
Trainingsdatensatz B 


liert wurde. Die Datensätze haben eine Länge von 180 s bei einer zeitlichen 
Auflösung von 0,1 s, die mit einem APRBS-Signal mit einer Haltezeit von 5 s 
erzeugt wurden. Trainingdatensatz A (siehe Bild 4) deckt einen Wertebereich 
von u € [0, 1] und Trainingsdatensatz B (siehe Bild 5) von u € [0, 0,5] ab. 
Die Testsignale liegen immer im Bereich von u € [0, 1], sodass beim Trai- 
ningsdatensatz B extrapoliert werden muss. Die Simulation für eine gegebe- 
ne Steuerfolge bei Reduzierung auf den Erwartungswert ist für Datensatz A 
in Bild 6 und für Datensatz B in Bild 7 zu sehen. Die Modelle verwenden 
bei allen Betrachtungen die gleichen Kernel-Parameter. Die Erwartungswerte 
bei den verschiedenen Simulationsverfahren lassen sich rein qualitativ nicht 
unterscheiden (vgl. Bild 8). Theoretisch sollten die Erwartungswerte von nai- 
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—— Naive Einschrittprädiktion 
0,15 +H- - - Monte-Carlo-Methode 
tere Taylorreihenentwicklung 


Exakte Momente 


Betrag des Residuums 


0 5 10 15 20 25 
Zeit in Sekunden 


Bild 8: Beträge der Residuen für die verschiedenen Verfahren für die Steuerfolge mit Trainingsda- 
tensatz A aus Bild 6 


ver Simulation und Taylor-Approximation einerseits, und exakter Momente- 
und Monte-Carlo-Methode andererseits die gleichen Ergebnisse liefern, da im 
ersten Fall dieselben Formeln zugrunde liegen oder wie im zweiten Fall die 
Monte-Carlo-Methode die Lösung der exakten Momente annähert. Die Ver- 
fahren gruppieren sich genauso für beide Trainingsdatensätze, auch wenn die 
Unterschiede sehr gering sind. 


Für einen besseren Vergleich der Auswirkung der Weitergabe der Unsicher- 
heit werden nun vom Datensatz A in Bild 9 und Datensatz B in Bild 10 die 
30-Unsicherheitsabschätzungen verglichen. Die Bewertung der Unsicherheit 
gestaltet sich schwieriger. Theoretisch sollte die naive Simulation die geringste 
Unsicherheit schätzen, dagegen Monte-Carlo-, exakte Momente- und Taylor- 
reihen-Methode näherungsweise die Gleiche, aber immer eine höhere als die 
naive Simulation. In der Fallstudie schätzt die naive Simulation immer die 
geringste Unsicherheit, jedoch sind die Unterschiede minimal und stehen in 
keinem Verhältnis zum Aufwand. Wie klein die Unterschiede sind wird beim 
Vergleich von Bild 9 und 10 deutlich. Bei der Simulation mit Datensatz B 
werden bei der Rückführung die Unsicherheiten der Eingangsgrößen besonders 
groß. Genau in diesem Fall werden die Unterschiede in den Unsicherheiten 
zwischen den Verfahren besonders klein. Erst bei Betrachtung des Datensatzes 
A separieren sich die Verfahren wie erwartet (vgl. Abb. 9). 
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—— Naive Einschrittprädiktion 

3 0,38 | | - - - Monte-Carlo-Methode 
5 gag t Taylorreihenentwicklung 
3" | ese Exakte Momente Í 
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g 4] 
= 0,3 PN Ea m EN fey, 
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Zeit in Sekunden 


Bild 9: 30-Unsicherheitsabschätzung für die verschiedenen Verfahren für die Steuerfolge mit 
Trainingsdatensatz A aus Bild 6 


5 Fallstudie: Eintank-Laborsystem 


Fiir die zweite Fallstudie an einem realen System wurde ein Eintank-System 
der Modellfabrik Plant des Fachgebiets Mess- und Regelungstechnik verwen- 
det, welches dem Schema in Bild 11 folgt. Das Wasser wird aus dem Zentral- 
tank mit einer Pumpe in den Tank gefördert. Dabei wird der Durchfluss mit ei- 
nem magnetisch-induktiven Durchflussmesser (MID) gemessen. Am Ausfluss 
befindet sich ein Proportionalventil (PV) mit dem der Wasserstrom, welcher 
zurück in den Zentraltank läuft, eingestellt wird. Der Öffnungsgrad des PV und 
die Leistung der Pumpe werden über einen Sollwert im Bereich von 0 % bis 
100 % angesteuert. Das MID misst den Durchfluss in Litern pro Minute. Die 
Ansteuerung des PV uyen:iz und die der Pumpe upympe werden als Eingangsgrö- 
ßen des Eintank-Systems behandelt. Der Zustand des Tanks wird als Volumen 
des Inventars in Litern erfasst. Die zu prädizierende Größe ist das Volumen 
des Tankinventars volumen +1. Untersuchungen haben gezeigt, dass bei dem 
gewählten Modellansatz (vgl. Bild 12) eine Abtastzeit von To = 0,7 s und p = 
q = 5 verzögerte Eingänge gemäß Bild 12 einen guten Kompromiss zwischen 
der zeitlichen Auflösung, dem Rechenaufwand und der Modellgüte liefern. Bei 
den Untersuchungen wurde ebenfalls der ARD-SE-Kernel und das Downhill- 
Simplex-Suchverfahren zur Optimierung der Kernelparameter verwendet. Der 
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— Naive Einschrittprädiktion 
3 0,7 +- -- Monte-Carlo-Methode 
Ẹ bo. Taylorreihenentwicklung 
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n 0,4 
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Zeit in Sekunden 


Bild 10: 30-Unsicherheitsabschätzung für die verschiedenen Verfahren für die Steuerfolge mit 
Trainingsdatensatz B aus Bild 7 


Upumpe 
_— 


Zentraltank 


Bild 11: Schematischer Aufbau des Eintank-Systems 


Trainingsdatensatz ist 2400 s lang und wurde mittels APRBS-Testsignal mit 
einer Haltezeit von 10 s erzeugt (vgl. Bild 13). 


Als Validierungsdatensatz wurde die Steuerfolge aus Bild 14 verwendet. Die 
Simulation mit dem 95 % Konfidenzintervall mit einer Rückführung der Unsi- 
cherheit mittels Taylorapproximation ist in Bild 15 zu sehen. Die Taylorap- 
proximation ist das einzige Verfahren, bei dem die Beobachtungen im 30- 
Konfidenzintervall bleiben. Die anderen Verfahren unterschätzen die Unsicher- 
heit. Im Gegensatz zur ersten Fallstudie, bei der alle Verfahren plausible Ergeb- 
nisse liefern, wird das Verfahren mit den exakten Momenten (auch mit anderen 
Datensätzen von dem Versuchsaufbau) nach wenigen Schritten numerisch in- 


144 Proc. 31. Workshop Computational Intelligence, Berlin, 25.-26.11.2021 


Yvolumen,t 


— sl 


e TO Ol 


Yvolumen,t—p 
Upumpe,t 
Svolument-+1 

i GPM(0,K) 
Upumpe,t—q 
Uventil t 


SS nl 


Uventil,t—q 


—_________ 5 


Bild 12: ARX-Modellansatz mit Eingangsgrößen Pumpen-Sollgröße und Ventilöffnung 
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Bild 13: 2400 s Trainingsdatensatz 
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Bild 14: Steuerfolge des Validierungsdatensatzes 
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Bild 15: Simulation der Steuerfolge aus Bild 14 bei Rückführung der Unsicherheit mittels 
Taylorapproximation sowie Messwerte des Füllstands 
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Bild 16: Unsicherheit der verschiedenen Verfahren beim Validierungsdatensatz 


stabil. Die 30-Unsicherheitsabschätzung der drei anderen Verfahren ist in Bild 
16 zu sehen. 


6 Zusammenfassung und Ausblick 


Im Beitrag wurde in zwei Fallstudien gezeigt, dass Gaußsche Prozessmodel- 
le sich für die nichtlineare Systemidentifikation bei Angabe der Prädiktions- 
Unsicherheit eignen. Bei der Simulation durch wiederholte Prädiktionen mit- 
tels Einschrittprädiktion verliert jedoch die Unsicherheitsabschätzung an Aus- 
sagekraft. Die vorgestellten Methoden, die eine Berücksichtigung von Ein- 
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gangsgrößen mit normalverteilten Unsicherheiten ermöglichen, vergrößern die 
Unsicherheiten im zweiten Fallbeispiel sehr unterschiedlich, sodass belastbare 
Aussagen bei der Erkenntnislage nicht möglich sind. 


In weiterführenden Arbeiten sollte untersucht werden, ob mit der Rückführung 
beliebiger Verteilungen (nicht normalverteilte Verteilungsfunktionen), wie sie 
in [7] vorgeschlagen werden, bessere Ergebnisse erzielt werden können, oder 
ob die Hyperparameteroptimierung in Output-Error (OE)-Anordnung für die 
Simulation geeignetere Parameter findet und damit die Aussagefähigkeit der 
berechneten Unsicherheit verbessert. Aufgrund des Rechenaufwands von GPM 
und des komplexen Suchraums in OE-Anordnung ist dies ein sehr rechenauf- 
wändiges Problem [4]. 
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Abstract 


Controlling nonlinear processes is a challenging task. Model predictive control 
(MPC) rose in the last decades to the dominating state-of-the-art method for 
control in the industry. In this work, a closer look at a closed-loop and an 
open-loop adaptive model predictive control (AMPC) method is taken, since 
AMPC can deal with nonlinearities in a process, even with linear models of 
the process. The presented open-loop AMPC method relies on interpolation 
between several linear finite impulse response (FIR) models, where different 
methods for the interpolation are investigated. The second method relies on 
online parameter estimation of a single FIR model via recursive least squares. 
The presented methods are tested and compared by controlling a single tank 
system in simulation. 


1 Introduction 


Since the early successful implementations of model predictive control (MPC) 
in the 1970s, MPC has risen to be state of the art for many industrial control 
applications [5, 19, 17]. In MPC, a model of the process is used to calculate an 
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optimal sequence of future manipulated variables [12]. Early algorithms such 
as dynamic matrix control (DMC) [15], model algorithmic control (MAC) and 
internal model control (IMC) are successfully implemented [17] and still have 
relevance today [4]. These algorithms rely on offline identified time-invariant 
models of the plant. 

For systems with changing process dynamics, these algorithms can fail if the 
controller does not adapt to the new dynamics. For example: A rocket decre- 
ases its total mass by burning fuel. This effects its inertia, propulsion etc. and 
therefore changes its dynamics. Adaptive model predictive control (AMPC) 
aims to solve this issue and can be categorized into deterministic and stochas- 
tic adaptive control [16], where the difference of stochastic adaptive control 
takes the uncertainty of parameter estimation into account (as in [8, 11]). In 
this work, the investigated open-loop and closed-loop adaptive control can be 
understood as offline and online identification of the model [1]. 


Both approaches in this work are deterministic and use affine models in AMPC. 
Adaptive variants of DMC are presented in [6, 21]. These approaches are also 
referred to as gain scheduling [7]. Here, finite step response (FSR) models 
are identified for several operating points (OPs). Depending on the output of 
a process (as scheduling variable), the controller interpolates between these 
models via triangular membership functions, which can be interpreted as fuzzy 
logic. The presented open-loop AMPC works similar, but finite impulse re- 
sponse (FIR) models are employed and different membership functions are 
investigated and compared. FIR models were already successfully used in 
MPC in the late 1970s [14]. For unconstrained MPC, the arising optimization 
problem has a closed form solution, which can be solved via least squares 
(LS). FIR models are inherently stable, their model parameters allow physical 
interpretability regarding characteristics, such as dead times of the process and 
they can easily be included [20]. In [10], affine models have been applied in a 
gain scheduling state controller together with Gaussian radial basis functions. 
As can be seen in [18], radial basis functions can work well to achieve locally 
bound validity for affine models. This property is important for these models, 
since their accuracy is bounded to the proximity to the OP for their estimation. 
The second investigated approach is a closed-loop AMPC. This approach 
employs a single FIR model, which is continuously updated via recursive least 
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squares (RLS). In contrast to the first approach, no OPs and membership 
functions need to be defined a priori. However, this approach faces the duality 
of control [2, 3, 13]. The controller drives the process to steady state, but in 
order to identify the dynamics of a process, it needs to be sufficiently excited 
by the input signal [18]. Not taking care of this problem can lead to burs- 
ting [9]. Therefore, it is worth investigating and comparing both approaches 
for a nonlinear control problem. As in [21], the control of the fill level in a tank 
is simulated to investigate both methods. 


2 MAC Algorithm 


The MAC algorithm belongs to the class of MPC and is based on FIR models. 
This contrasts the DMC algorithm, which works with FSR models [19, 21]. To 
model nonlinear processes with a linear model at a given OP in the FIR model, 
an offset parameter is additionally required. The output $(k) at the discrete 
time step k of the FIR model can be calculated by a linear combination of the 


given inputs u 
AFIR 


S(k) = go + Yo gjulk— j) +â(k). (1) 
j=l 

Thereby, the FIR model order npr, the predicted disturbance ñ, the offset 
coefficient goff and the impulse response coefficients g j are used. The main idea 
of an MPC is to predict the future behavior of a process for different sequences 
of the manipulated variable. Afterwards, the best sequence according to a 
predefined objective function is chosen. The manipulated variable is the input 
of the model u. To predict the future FIR model output f(k + i) during time 
step k, the convolution sum in (1) can be divided into two parts. The first one 
includes the past sequence of the manipulated variable 


NFIR 
F (k+i) = gorr+ }, gjulk+i-j), (2) 
j=i+1 
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which already influenced the process. The predicted output ¥~ is also called 
free response of the process. In the second part, for the forced response 


i 


= dey u(k+i- j) (3) 


the future sequence of the manipulated variable is considered. It is the task of 
MAC to optimize this future sequence of the manipulated variable. The whole 
prediction for time step k + i at the time step k is given by 


H(K+i) =H (kK+i)+9+ (k+i) +A(K+i). (4) 


It is assumed, that the disturbance fi at time step k remains the same over all 
prediction steps i and is calculated by 


A(k) =y(k)—9(k) fori=1,...,np, (5) 


with y(k) as the measured process output at the time step k to correct the bias 
error of the prediction. The output sequence is calculated by 


$= lgo +H u +Htut +A, (6) 


with n, as prediction horizon, the vector of the past sequence of the manipu- 
lated variable u”, the proposed sequence of the manipulated variable u”, the 
predicted outputs y and the disturbance at the predicted time steps n as 


u(k<nrır +1) | | u(k) ] 


7 u(k — npr +2) = (k+1) 
u = 3 , u = : ’ 
k-1 k+nmp-1 
u(k—1) u(k+np — 1) en 
S(k+1) n(k) 
$(k-+2) Alk) 
j= ; A= 
(k-+ 1p) Alk) 
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and the dynamic matrices 


Enpr Ener" 82 
u 0 Enrir ... ... ... 83 
H = Br: . .b 
0 0 EnFIR Snp+1 
gı 0 0 (8) 
8&2 81 
H+ = 
Enp-18np-2 5, 81 0 
Enp nr nr Bl 


To optimize the sequence of the future manipulated variable u*, the difference 
of the reference values and the prediction 


e=w-y=w (1gorr +H uw +H*ut +f) 


(9) 


has to be calculated, where the vector of the future reference values w is defined 


as 
T 
w= [w(k+1) w(k+2) «+: w(k+np) | (10) 
To solve the MPC optimization problem, a cost function 
J= e+ hu Aut" Aut (11) 


is introduced. A larger Ay penalizes Au* more, which leads to a less aggres- 
sive controller. By adjusting Ay (in this work A, = 0.2) this trade-off can be 
controlled. The change of the manipulated variable Au is calculated by 


u(k) — u(k—-1) 
uk+1l) - u(k) 
Au = l =T (u* —lu(k-1)) (12) 
u(k+np— 1) — u(k+np- 2) 
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with the transformation matrix 


it 209.28: 0 
SA : 
T=|ọ a11 ^% ije (13) 
ep . 0 
0 0 -11 


By minimizing the cost function J with respect to the future sequence of the 
manipulated variable u*, the optimal solution for the MPC optimization pro- 
blem can be found by solving 


min J 
ut 
subject to |Au| <1-Aumax and L-Umin<uU<1-umax. OD 


The solution of the unconstrained optimization problem in (14) can be found 
analytically. By neglecting constraints, the optimum of the cost function J is 
found by 


i= (aig +42") = 
(15) 
(HET (w— (How + Lgomr+ft)) HATT Lu(k = 1). 


3 Process model 


A single tank system, similar to [21], is considered. The task is to control the 
fill level y(t) = h (t) between 0 and 5 m ina tank with a small hole as an outlet 
by adjusting the inflow u(t) = Vin(t) of the fluid. This setup can be seen in 
Fig. la, where the area of the fluids surface is calculated by 


A= (vi-+1) mm. (16) 
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The cross-section of the outlet is defined by a = 0.367m?. The fluid is con- 
sidered to be incompressible. By using this geometry instead of a cylindrical 
one, the dynamical behavior changes more with different heights. A model of 
the process can be derived via the law of mass conservation. 


4 
= 
B= 
re) 
0 
0 2 4 
Vin(t) in m3s~! 
(a) single tank (b) steady state behavior and operating 


points (OPs) of the single tank system 
for inflow Vin (t) 


Figure 1: process model with volumetric flow rate as input u(t) = Vin(t) and the fill level as output 
y(t) = hd) 


The simplified dynamics for the simulation are described by 


1.4 a 


h(t) = am" An) 2gearhh(t) (17) 


with the discrete equivalent being 


1 (18) 


To en 28earthy (k Ufro D): 


where earth denotes the gravity and 79 is the sampling time (chosen as 1 s). The 


nonlinearity of this process can be seen by looking at the steady state behavior 
of the process in Fig. 1b. This figure also shows the OPs, where the FIR models 
are identified. 
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4  AMPC Algorithms 


Usually, a linear time-invariant model is used in an MPC to predict the process 
behavior [19]. This might fail for nonlinear processes, hence an AMPC may 
be useful. The basic idea of an AMPC is to change the internal model or 
controller parameters when the OP changes. In this work, an open-loop and 
a closed-loop adaptive control approach are considered. For both approaches, 
only the internal model is adapted. This enables better control, not only for 
nonlinear, but also for time-variant processes. 


4.1 Open-loop Adaptive Control 


The open-loop AMPC approach requires prior knowledge of the process. There 
has to be a measurable state variable w(k), which correlates with the change of 
the process. Initially, models have to be estimated at the OPs. Subsequently, the 
AMPC aims to switch or interpolate between the different models depending 
on the state variable y(k), which is in our case the fill level of the tank y(k). 
In Fig. 2, the block diagram of an open-loop AMPC is shown. In the past, it 


wk) 


Adaptation 
Mechanism 
gee La ee Ca | 
+ <> u(k) y(k) 
MPC [> Process 
—> 


Figure 2: block diagram of a open-loop AMPC approach (adapted from [22]) 


has been common to adapt only the gain of a simple controller for changing 
process dynamics. Nowadays, AMPC also encompasses more sophisticated 
algorithms, which are not restricted to the adaptation of a single parameter. In 
this work, the FIR coefficients 8 of the internal model are a function of the state 
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v(k). Therefore, the controller behaves more accurately at the OPs, for which 
a previously identified model is employed. In order to accurately estimate the 


0 


| 
= 
o 
= 
wm 


coefficient goff 
| 
N 
coefficients gj 


0.1 


| 
w 


—4 0 le 


offset 


Figure 3: identified FIR coefficients at different operating points (OPs) of the single tank system 


FIR coefficients, the system has to be excited at the different OPs. Afterwards, 
the FIR coefficients gop, can be computed from the gathered data with the LS 
method. They can be seen in Fig. 3 and are defined as 

Sop, = [$1,0P;> 82,0P; ---; Ener op fori=1,...,nop , (19) 
where nop is the number of OPs. Because such a model only describes the 
process behavior around its OP, a validity function is needed. The validity 
function describes how active a model shall be for the given state w(k) [18]. 
Through normalization of membership functions u(w) (e.g. Gaussians, rec- 
tangular, triangular or trapezoid functions), activation functions Pop, (y) of 


the different models are calculated according to 


= wily) (20) 


Y for, (y) = 1. (21) 
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The resulting validity functions Pyethod,op; are Shown in Fig. 4. The activation 
functions for the hard switching case are denoted by Pgwitch,op,. In this method, 
only a single model is active. The borders for switching are set in the middle 
between two OPs in the output space. 

The linear interpolation with triangular functions has at maximum two local 
models being active. The validities By in op, are set to be 0.5 for both active 
models at the previously defined switching borders and reaches 1 at the OP of 
estimation. 

The Gaussian validity functions Pgauss,op; are achieved by placing Gaussian 
membership functions on the OPs and normalizing them [18]. It is noticeable 
in Fig. 4 that the Gaussian validity functions do not share the same switching 
borders with the other validity functions. This is due to tuning of the Gaussi- 
ans’ variances. They are proportional to the span they are supposed to cover, 
otherwise validity functions in small areas would vanish. 


je 


=== Dgwitch,i 


PD in, 


i =-2 PGauss,i 


validity function Pmethod,i 
o 
wm 


0 — 
0 1 2 3 4 


fill level y(k) = w(k) 


Figure 4: Validity functions Pmethoa,; of the open-loop AMPC approaches 


The adapted FIR coefficients for the internal model 8 oqe] are calculated by 
multiplying the FIR coefficients of the OPs with their validity function and 


summing them up 
nop 


Emod V) 2 È Sop, Por (Y). (22) 
i=l 
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4.2 Closed-loop Adaptive Control 


A schematic block diagram of the indirect closed-loop AMPC is shown in 
Fig. 5. The key idea is the online identification of the process. This results in a 
single FIR model as the internal model for prediction in the AMPC algorithm. 
To identify the FIR coefficients g (k), the RLS method with a forgetting factor 


v 
Adaptation 
Mechanism Mogel 
1 w(k) 0 yoo oe ge ee ws 
— >») y(k) 1 
! MPC Process i 
I —-» 1 
l 1 
I I 
| 1 
| | 
| | 


Figure 5: block diagram of an indirect closed-loop AMPC approach (adapted from [22]) 


Morget 
g(k) = g(k-1)+ 1(k) (PR) - x" (k)g(k- 1)) (23) 


is used with the adaptation vector 


1) = TEPE- TES ee Hx(k) (24) 


and the update equation of the covariance matrix 


P(k) 


= — (1-Yk)a” (k)) P(k-1). (25) 
Morget = 

When using the RLS method for closed-loop adaptation, new data is collected 

during closed-loop control of the process. One major issue is that there is no 

excitation of the system, if the manipulated variable is constant in time. In 

this case, it is not possible for the RLS method to get new information for the 

estimation of the FIR coefficients. Hence, persistent excitation of the system 


is needed. To achieve persistent excitation, white noise v of variance Oi is 


Proc. 31. Workshop Computational Intelligence, Berlin, 25.-26.11.2021 159 


added to the optimal manipulated variable uop: 
Uexcite = Uopt + V; vr N (0, Okcite) (26) 


as some kind of probing measure [3]. This ensures excitation of the system 
even at steady-state. The parametrization of the algorithm is executed accor- 
ding to Tab. 1. 


Table 1: parametrization of the closed-loop AMPC method 


parameter | A P(0) 02 (0) 


excite 


value | 0.93 O.1-2 0.04 0.01-1 


5 Results 


In order to test the presented methods, a single tank system is simulated. Mea- 
surement noise is neglected. As reference trajectories, a sequence of steps (see 
Fig. 6) and a sine wave (see Fig. 7) have been chosen. To measure the quality 
of the controller performance, the normalized root mean squared error Je and 
the mean squared input Ju are considered. As can be seen from both figures and 
Tab. 2, all three open-loop adaptive control methods produce results of similar 
quality. This can be accounted to the fact that the model error is fed back to 
the controller and compensates errors in the model to some degree. Still, the 
presented methods outperform the algorithm using a single averaged model, 
denoted as ’Mean’. When the active model changes in the switching method, 
a sudden change in the input can be noticed in Fig. 7. This is no desirable 
property as it increases wear of the machines. The linear and Gaussian method 
avoid this with their smooth transitions. One advantage of the Gaussian method 
is that it is more versatile in the design of its validity functions. By adjusting the 
Gaussians’ variances, smoother or sharper transitions can be achieved. Also, 
multiple active models are possible, whereas with the linear transition only 
a maximum of two models are active. Due to this versatility, the Gaussian 
method can be well adapted to any nonlinear process. However, this requires 
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more effort to work well. Increasing the number of local models improves the 


overall performance of the algorithm for every method. 


E 
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an 
la Reference w 
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discrete time k 


Figure 6: sequence of steps for the open-loop AMPC methods 


Reference w 
—— Switch 

Lin 
--- Gauss 
ee Mean 


input winms~? fill level y in m 


0 50 100 150 200 250 
discrete time k 


Figure 7: sinusoidal sequence for the open-loop AMPC methods 
By taking a look at the FIR coefficients in Fig. 8 and Fig. 9, it can be seen how 


the adapted coefficients of the internal model change over time during simula- 
tion. Note that all following plots do not include the offset coefficient goff to 
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Table 2: measures of performance, Je and J, for presented scenarios with open-loop AMPC 


scenario metric | Switch Lin Gauss Mean 


Steps Je 0.0699 0.0701 0.0694 0.0852 
Steps Ju 57.88 57.87 57.84 58.12 
Sinus Je 0.0540 0.0526 0.0549 0.0575 
Sinus Ju 64.58 64.61 64.55 65.35 


achieve a better representation. At the start and the end of the simulation of 
the step sequence, the switching method (Fig. 8a) changes its active model fre- 
quently, because the fill level y is near to a switching border. Similar behavior 
can be noticed in the interval 200 < k < 300. At the beginning of the simula- 
tion, the fill level y starts at 0 m. Since the first step in the reference signal is at 
0.5 m, the process is only in a short period of time between fill levels of 0 m and 
0.5 m. This causes the FIR coefficients to correspond only at the beginning and 
during the overshoot at k = 800 to the FIR coefficients of OPı. The process 
model switches continuously while following the sinusoidal reference. For 
this, the FIR coefficients in Fig. 9a are only changing by crossing a switching 
border, while for the Gaussian and linear method the FIR coefficients change 
is smooth (see Fig. 9b and 9c). This behavior is also presented in the contour 
plots of the FIR coefficients in Fig. 9 on the right hand side. 


The results of closed-loop AMPC method can be seen in Fig. 10. For evaluating 
the closed-loop method, only the step sequence is used. With the sinusoidal 
reference signal, the FIR coefficients have to change too fast and the algorithm 
can not adapt the model. Due to this issue, the controller gets unstable. Because 
of the higher adaptation time of the model in Fig. 11, the same step sequence 
with a five times longer hold time is also considered. In Tab. 3 the measures of 
performance are given. For the five times longer sequence Je is mainly lower 
because of the comparatively few steps in relation to the holding time, but Jy is 
barely different. The less aggressive control performance in the scenario with 
the five times longer hold time can be justified by a better model quality. By 
comparison of Fig. 10 and 11, a reduction of the overshoot is clearly visible. 
Through persistent excitation, the input u in the closed-loop method is noisier 
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(c) surface and contour plot for linear method 


Figure 8: adapted FIR coefficients during simulation of the sequence of steps with the open-loop 
AMPC 


than in the open-loop one. This affects also the fill level y, which also appears 
noisy, but is needed for a good estimation of the FIR coefficients. 


From Fig. 12, it becomes clear that the closed-loop method needs a certain 
number of time steps to sufficiently learn the FIR coefficients. Whenever the 
references is changing, the coefficients need to adapt and in the first phase of 
estimation they become very noisy for a short time until they converge again 
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(a) surface and contour plot for switching method 
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(b) surface and contour plot for Gaussian method 
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(c) surface and contour plot for linear method 


Figure 9: adapted FIR coefficients during simulation of the sine wave with the open-loop AMPC 
Table 3: measures of performance, Je and J, for presented scenarios with closed-loop AMPC 


scenario metric | 1x seq. length 5x seq. length 


Steps Je 0.0843 0.0355 
Steps Ju 57.97 57.25 


to the new optimal coefficients. The correction of the bias error fails for highly 
wrong estimated coefficients and the system excites itself. 
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Figure 10: sequence of steps for the closed-loop AMPC methods 
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Figure 11: sequence of steps for the closed-loop AMPC methods with the five times longer holding 
time 


6 Conclusion 


Two AMPC approaches — an open-loop and a closed-loop — with linear FIR 
models are investigated. For the open-loop approach, three methods for blen- 
ding, using the previously estimated models in different OPs, are explained. 
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(a) surface plot for the normal step se- (b) surface plot for the five times longer 
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time during the step sequence 


Figure 12: adapted FIR coefficients during simulation of the sequence of steps with the closed-loop 
AMPC 


What makes the Gaussian method difficult to compare to the linear and swit- 
ching methods is the fact that depending on the standard deviations of the 
Gaussian membership functions, the validity functions do not share the same 
switching borders. With the possibility of tuning the parameter of each Gaus- 
sian separately, this method becomes more suitable for different nonlinear 
processes, but requires more effort to parameterize. Hard switching can lead 
to sudden changes in the input, which wears the machines more, otherwise the 
three open-loop adaptive methods perform similarly well. One major drawback 
of the closed-loop adaptation is the fact that some time is required to learn 
suitable FIR coefficients. In contrast to this, using previously learned parame- 
ters gives a sufficient accuracy right away and therefore works faster during 
operation. The open-loop adaptation is more reliable but restricted to operate 
near to the initial OPs. In addition, the FIR models have to be estimated offline 
before the control task is started. The closed-loop adaptation requires less prior 
knowledge and tedious tuning but is restricted to processes and trajectories that 
give the method sufficient time to estimate an appropriate model. Therefore, if 
no offline models can be determined, the closed-loop method has to be chosen. 
A comparison of the closed-loop and open-loop adaptive approach in areas 
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where the open-loop strategy needs to rely on extrapolation of its models could 


expose further advantages at the closed-loop scheme. 
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Abstract 


Future electrical power systems operating up to 100-percent with regenerative 
energy sources (RES) will need dynamically controllable power plants [1]. 
The variables to be controlled in power systems are voltage and frequency 
of the grid. Thereby, the frequency in the grid is changed via the supplied 
power of the power plants. Until recently, regenerative energy systems have 
fed as much power as possible into the grid with the objective of optimizing 
the power by means of maximum power point (MPP) tracking [2]. Therefore, 
they contribute to grid stability only to a very limited amount. To change the 
paradigm, control methods like active power tracking control of wind turbines 
(WT) [3] and photovoltaic (PV) power plants with battery storage have been 
developed in recent years. However, it is also necessary that PV systems 
without storage can quickly reduce the power to be supplied. In this pa- 
per, a model-based demanded power point (DPP) tracking controller based on 
Takagi-Sugeno modeling and LMI synthesis is presented. It has the advantage 
to perform in a wide nonlinear operating range with guaranteed performance, 
independent of external disturbances such as changes in the irradiation and PV 
cell temperature. 
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1 Introduction 


Currently the major part of the electrical energy is produced by classical sy- 
nchronous machines. They have the inherent ability to stabilize the electrical 
grid due to their inertia. Droops in voltage and grid frequency have to overcome 
this inertia first in order to make any changes to these quantities. 


Until 2020, the photovoltaic electricity share was about 8.7% and 3.9% in Ger- 
many and EU28, respectively [4]. In the past, this small share allows renewable 
energy sources (RES) to simply fed their complete available power into the grid 
without paying attention to the grid stability. Nevertheless the share of renewa- 
ble electrical energy is deliberately rising. With higher share, the grid stability 
becomes a serious issue that has to be addressed by new control concepts. One 
possible approach is to engineer renewable energy sources in a way that they 
act like a conventional power plant with an inherent inertia, see e.g. [5, 6]. 
Optimization can be archived by forming an intelligent compound of these 
power plants, called dynamic virtual power plant (DVPP) [7]. Participants to 
the digital virtual power plant need to be able to meet minimum requirements 
like controllable power generation under varying conditions and they need to 
supply a proper communication interface. 


A usual model scheme for a PV power plant is shown in Figure 1. The primary 
converter can be identified at the DCDC-converter by the converter model and 
the converter controller. Its task is to regulate the voltage of the PV cell vpy 
and to feed the electrical power into the DC link. The MPP respectively 
DPP controller can be interpreted as part of the power plant controller. The 
secondary converter can be located at the grid connection. Its task is the 
power conversion at the grid level and it connects to the PCC. In the following, 
we will discuss the electrical model of the PV cell and the complete DCDC- 
converter. 
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Figure 1: Signal paths for the PV power generator from the physical power source (irradiation S 
on the right hand side) to the electrical grid (in the left hand side). 


2 Model of PV Module 


The well known complete single diode model (CSDM) is shown in Figure 2 [8]. 
It consists of the ideal model of a photovoltaic cell (current source in parallel 
with a diode) completed by resistors in serial and parallel to accommodate 
losses. The diode I-V characteristic is described by the theory of Shockley [9]: 


1 KBT, 
HER lew (2) =]. we (1) 
n VT de 


An € [1,2], ideality factor of the diode [1] 


ig, diode current [A] 

is, diode reverse-bias saturation current [A] 

kp, Boltzmann constant [1.38 - 107” J/K] 

des elementary charge [1 .602 10-1? c] 

To, absolute temperature of the p-n junction, cell temperature [K] 
Vd, voltage across the diode [V] 

VT, thermal voltage [V] 
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Figure 2: Complete Single Diode Model and simplifications thereupon. 


Together with Kirchhoff’s first circuit law ipy = iph — ia — va /Ry and Kirchhoff’s 
second circuit law va = Vpy +Rsipy this gives the following relation between ip, 
and Vpy: 


i : . Voy + Rsi v Rs. 
ipv = iph — is or ( nae =) 1 A A ipv: (2) 


where 
iph, Photon current [A] 
ipv, PV cell current [A] 
Rn, shunt resistance [Q] 
R,, series resistance [Q] 


Vpv, PV cell voltage [V] 


2.1 Explicit Single Diode Model (eSDM) 


The cSDM includes 5 fitting parameters: (An, is, ipn, Rh, Rs). In dependence 
on the amount and accuracy of the data provided by the manufacturer about 
the photo cells I-V-characteristic, it can be hard to identify all 5 parameters. 
Furthermore, (2) gives only an implicit function for the photon current. To 
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Figure 3: Aggregation of the PV array model from PV cell model. 


obtain an explicit form, the cSDM is simplified by setting R, to zero leading to 
the eSDM. The governing equation (2) becomes: 


ipv = iph — İs lex (4 “e | ay = f (Vpy). (3) 


n VT 
For the open-circuit ipv = 0, it follows from (3) that the diode reverse-bias satu- 
ration current i, can be expressed by the open-circuit voltage Voc = Vpv (ipv =0): 
$ Voc 
iph — 72° 
A P R 
s= j f (4) 


l 
; ex 1. Voc 
P An VT 


The model parameters A, and Rp are assumed to be constant. After this, the 
dependencies from the irradiance and the cell temperature of the variables iph 
and voc, are addressed. 


2.2 Array of Photo Cells 


Multiple identical photocells are connected in parallel and series to form one 
PV array. The number of N, parallel branches multiply with the photo current 
of one cell and the number of photocells within one branch N, multiplies with 
the voltage of one cell. This gives the accumulated current /,, and voltage 
Vpv: Ipv = Npipv, Vpv = NsVpy, See Figure 3. Nevertheless, we use the lower 
case letters in the following to refer to the PV array values, regardless of the 
number of PV cells used. 
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I-V-characteristic (left hand side) and P-V-characteristic (right hand side) for different 
irradiance. 
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Figure 5: /-V-characteristic (left hand side) and P-V-characteristic (right hand side) for different 
cell temperatures. 


2.3 Variation with Irradiance and Temperature 


Derivations from the STC are addressed by the following correction formulas: 


iph S STC Voc STC 
STC = SSTC [1+ onr(Te — T; )] D „ST =1+Pr(T--To’~). (5) 
P 


In the latter formula, the weak impact on the open-circuit voltage by the change 
of radiation is neglected. The temperature coefficients &r and Br are usually 
given by the manufacturer. One can see the resulting characteristics for change 
of irradiance and cell temperature in Figure 4 and Figure 5 respectively. 
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Figure 6: Buck-Boost converter. In switching mode D denotes whether the MOSFET is open (D = 
0) or closed (D = 1). The average value of duty cycle and the corresponding voltage ratio 
is given in the formula on the right hand side. Consider the definition of vpc in such a 
way, that vpc has the same sign as vpy. 


3 DCDC-Converter 


As one can see in (3), the PV cells operating point is controlled via the PV 
voltage vpy. This voltage is kept constant by a DCDC-Converter which feeds 
the generated power into a DC link, see Figure 1. Therefore, the converter has 
to cancel out the disturbances of changing direct link voltage vpc or changes 
of the incoming PV current ipy. 


3.1 Converter Model 


We perform our analysis exemplary for three different converters: the buck 
converter, the boost converter and the buck-boost converter. Circuits and basic 
equations for these converters can be found in [10], for instance the circuit of 
the buck-boost converter is given in Figure 6. The converter circuits can be 
analyzed either for the switche FET (pulse width modulation mode) or as an 
averaging model. In the first case, D can be either 0 or 1, representing the 
state of the either closed or opened FET. In the later case D € [0, 1] represents 
the average over time of open state of the FET, so called duty cycle D. We 
define the input and output voltage of the converters in such a way, that they 
are equal in sign (see Figure 6). Then, the averaging models have the following 
voltage ratios: vpc/Vpy = D (buck converter), vpc/Vpy = 1/(1 — D) (the boost 
converter) and vpc/Vpy = D/(1 — D) (buck-boost converter). 
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Figure 7: Eigenvalue and Bode diagram for the buck-boost converter coupled with the eSDM. 


3.2 Dimensioning of the Electronic parts 


The parts used in the converter, namely L and C, are dimensioned in depen- 
dence of the nominal operating point. This point is characterized by the maxi- 
mum power point (MPP) under standard test conditions, i.e. Cae i). On the 
other side of the converter the nominal direct current link voltage vle gives 
the nominal duty cycle D?. Finally the pick-to-pick value of ripple current Air, 
and the pick-to-pick value of ripple voltage Av,, together with the switching 


frequency fw are considered: 


vc- D?) #,(1—D°) Buck 
L= — v? D? C= ——— 4 Ai /8 Boost (6) 
Air fsw 2 Avpyfsw L/ 
vD? ana — D?) Buck-Boost 
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3.3 State Space Equation and Linearization 


Under the assumption, that the polarity of the switch current or voltage does 
not change during the whole cycle (continuous conduction mode, see [11]), 
switching mode and average analysis results in the same describing state space 
equations for the converter: 


Ipv = inD : VpvD — VDC Buck 
dVpy = 1 y R IL = 
dC) vk dr \Y" vpc(1—D) Boost (7) 
ipv — iD vpD-vpc(1—D) Buck-Boost 


Define the input as u = D, the states as x = Wei)? and the function ipy = 
f (Vpy) one gets 


f (x1) ru X1U — VDC Buck 
dx u 1 dx = 1 1 B (8) 
de C Fi) dL"! vpc(1 — u) oost 

f (x1) ru xıu—vpc(l—-u) Buck-Boost 


Taylor linearization around one arbitrary stationary operating point (superscript 
e) defined by x° = Cas ic)? and u“ = D° gives the linear system (Ax = x — x“, 
Au=u-u‘) 


1 (se ige —be 
Or TEE Ax + De Au=AAx+BAu, (9) 
dt a° /L 0 +b5/L 
D° i, Vov Buck 
a =41 B=40 b=4 vse Boost (10) 
D° iy, Voc +¥py Buck-Boost 


For all converters y = vpy = xı applies, and therefore Ay = CAx, C = (1,0). 


A brief analysis of the obtained linear models shows a strong dependency of 
the model properties from the chosen operating point. Assume standard test 
conditions for temperature and irradiation, then the eigenvalues and bode plots 
shown in Figure 7 are obtained for different PV voltages Viv 
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3.4 DCDC-Converter Control Loop 


To meet the predefined reference PV voltage Vpy ref a I-state-space controller is 
used: ; 
AD = Au = —K,Ax — K; [ (Vpv ret — Vpv) dT. (11) 
0 


The integral on the right-hand side of (11) can be understood as an additional 
state. Let be xı = f (viv — Ypv)dT and xf = J (Voy — Vpv,ref)d T, then Axr = xı — xf 
and Ax; = —CAx, under the assumption Vpy rep = const. Collecting the states as 
one vector this gives the new state space equation: 


Ss E 
Peo [Oe Un Vag a 8 Au =AAx+BAu, Ax—{* * |. (22) 
dt -C 0 (0) xX] — xf 


Following this scheme, the controller can be written as state space controller, 
namely Au = —KAX and K = (KI, K;)!. 


3.5 LMI Controller Design - Single Model 


The controller in form of the matrix K can be found using linear matrix inequa- 
lities (LMIs) conditions. The conditions are in general derived from analysis 
using the Direct method of Lyapunov [12]. A common Lyapunov function 
candidate is of the quadratic form, V = x'Px. Together with the controller 
and the state space equation this gives the matrix inequality that contains the 
unknown controller K and the variable P: 


Their feasibility can be verified by finding a solution using interior-point met- 
hods [13]. In this study we use the Yalmip library for Matlab [14] together with 
the Mosek solver [15]. 


The inequation (13) can be extended to add some restrictions about the closed- 
loop pole [16]. In this, we set a minimum decay rate &, a minimum damping 
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Table 1: Parameter of the single model 


parameter Vow [vw Mme S= STC Té = TSTC a © a 


value 0.9 1000 W/m? 298 K 25 20° 51 


ratio & =cos(®), and a maximum undamped natural frequency @y = r sin (O). 
The so defined area and the actual area of the poles are marked in Figure 8a. 


For the single model, containing only one operational point, the restrictions 
are given in Table 1. The so found controller has the closed-loop eigenvalues 
shown in Figure 8a. While the behavior of this controller around its operational 
point is quite satisfactory, larger deviations from this operational point give 
poor results in terms of overshoot and oscillations, see Figure 8b. Therefor 
the Takagi-Sugeno Model will be used in the next steps, utilizing multiple 
operation points. 


3.6 Takagi-Sugeno (TS)-Model 
The nonlinear system under investigation is described via the equations: 

x =f(x,u,0), xo0=x(to), y=g(x), (14) 
where 


f: R” — R”, smooth vector-valued function 


g:R” —>R?, smooth vector-valued function 


xeR”, state space vector 

u E R”, input vector with controllable and uncontrollable inputs 
yeR, output vector 

BER“, time variable parameter vector 
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Taylor linearization of (14) around i = 1,2.,...,N, different equilibrium points 
{xf uf } which fulfill £(x?,uf) = 0 gives 


Ax; = A;Ax; + B;Au; 3 AY; = C;Ax;. (15) 


All these linear systems share the same state and input vector. The TS model 
is the weighted sum of these linear systems, giving an interpolation of N, LTI 


systems: 
N, 
x = h;(z) (A;x an Bu + a;) > a= Axt = B;u‘ (16) 
i=l 
N; 
y=),hl)(Cx+c), c = —Cixf (17) 


i=1 


The functions h; : R! — R are the membership functions and fulfill the convex 
sum condition: Vz: %h;(z) = 1. The vector of the so-called premise variables 
z may directly contains states xx, inputs uz, and time variable parameters ©, or 
be a function z = z(x, u, 0). In the following we assume, that the equilibrium 
points are selected by premise variables z°, arranged on a Cartesian grid. Then 
we can switch from one linear index i (numbering all models from 1 to N,) to 
a total of d Cartesian coordinates i) ,i2,...,ig (number of premise variables is 
equal to d). The transformation between both ways of indexing is given by: 


k 


ik = 1... . d B 
Zi = es | > i=1+} (k-1) 
k=1 


=] 
k=1...d 1 


l= 


The membership functions are constructed as products of local test-functions 


d 
hi(Z) = Niy.ip,.ig (2) = [] Weg Ze), z= [e1,22,---52a]" (19) 
k=1 


These local test-functions are almost everywhere zero, equals one only at the 
corresponding supporting point, that is we, (2% j) = Six,j, (Ôj is the Kronecker 
delta), and are interpolated by a given function g between. 
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Table 2: Parameter defining the operational points of the TS-Model 


parameter values 
Võv,i/Vpv, MPP {0.3, 0.6, 0.9} 
se {200, 333, 467, 600, 733, 867, 1000} W/m? 
Téi {273, 303, 333} K 


Assuming ascending order of the supporting points, z¢ g1 3 zZ je this can be 


written as 
1 2k L Zk 1 OE Zk n, S Zk 
8 (Ir - kirl / lki = Zk iil ir SS Zh iy, 
Whit (zx) = e e e e e e (20) 
g (lz Zit / ki = Zeit Zhi, Sk S i 
0 , otherwise 


In this we use a very simple function g that satisfy the convex sum condition, 
namely g(x) = 1 — x, which gives triangular shaped test-functions. 


Under stationary conditions three parameters are needed to determine the state 
of the systems, they form the vector of premise variables z = (vpv, S, T.)". The 
parameters defining the chosen 63 models, are given in Table 2. 


3.7 LMI Controller Design - TS-Model 


The TS-Model is now used to find controller for each operational point, in such 
a way that the following control law is applicable: 


N; t 
u=D=Y¥ hj [Df -Kri (xf) Kiiri], xı= f (Vpvet—Vpv)dt. (21) 
i=l 
The methodology in applying the Direct method of Lyapunov is the same 
as before. But now, multiple inequations of the type (13) has to be solved 
simultaneously for different matrices K; but the same variable P. Using the 
same P guarantee not only local stability, but global stability. Like before, 
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additional constraints are applied to the LMIs. They are chosen independently 
for each model: 


a; =2x ApEn to p = 10x APMP @=20° (22) 


min,Re,i ° max,Abs,i? 


with 


A open-loop 


-l ; 
fo smallest absolute real part of the open-loop eigenvalues 
‘max,Abs,i ’ 


largest norm of the open-loop eigenvalues 


The position of the eigenvalues is exemplary given for two models in Figure 8a. 
The simulation results shows a much better performance for the TS-controller 
than for the single controller, see Figure 8c. 


4 MPP and DPP Tracking Methods 


Classical MPP techniques can be divided into offline techniques, like the fracti- 
onal open-circuit voltage and the fractional short-circuit current techniques; 
online techniques, like the perturb-and-observe and the incremental conduc- 
tance techniques; and advanced (by means of computational effort) techniques 
[17]. 


In this we use the perturb and observe (P&O) method, e.g. [18, 19, 20], and 
extend this method for DPP tracking. The basic idea of this method is to 
vary (perturb) the PV voltage and to observe the change in the power output. 
The direction of the voltage steps is kept if the power increases and reverses 
otherwise. Metaphorically speaking, the operational point moves towards the 
extremum, hence this method is also called hill climbing method. Once it 
reached the MPP, the system will oscillate about the MPP. Choice of the step 
size affects both, the time it takes to reach the MPP and the minimal distance 
to the MPP due to the oscillations. The first effect makes a large as reasonable 
step size desirable, the second effect forces the step size to be as small as 
possible. 
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The perturb and observe method can fail under changing irradiation conditions. 
If irradiation increases, then regardless of the direction of the perturbation, 
the power output is increasing and the algorithm will keep the direction. In 
[21] a three-point weight comparison P&O method is used to overcome this 
problem. 


Extension for DPP tracking can be done by replacing the feedback from the 
produced power Pav = Vpy X ipv to the function ae = —|Ppy — Paem|. One can 
see, that this results in a large range for the PV voltage, which makes the 
advanced TS controller useful if not necessary. 


5 Conclusion 


The modelling of a PV power station has been described. Power conversion 
is performed within two steps, firstly by a buck-boost converter adjusting the 
power to the DC link level, secondly by an inverter meeting the requirements of 
the point of common coupling. The first conversion step is described in detail 
since here a modified Perturb and Observation method is applied to realise a 
DPP tracking. To cover a large operation range of the converter, the PV voltage 
solely adjusts the PV current and therefore the produced power, a Takagi- 
Sugeno Modell is used. The improved performance of the multi-operational 
point model has been shown in the simulation. This paper shows one way, how 
PV plants can contribute more to grid stability. An inevitable feature on the 
market of growing PV power share. 
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(a) Shown are the Eigenvalues of the open-loop and closed-loop models. The single 
model (left-hand side) arises from the linearization at one operational point only. On 
the contrary, the TS model arises from 63 different operational points. Eigenvalues 
for the TS model number 24 (middle) and 44 (right-hand side) are shown. 
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(b) Shown is the step response in the PV voltage vpv.cur for the single model 


(controller design for one operational point). 
PV voltage Vpy ref, irradiation S, and cell temperature To change their values 
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(c) Shown is the step response in the PV voltage vpy cur for the TS model (controller 
design for a total of 63 operational points). The values of the reference PV 
voltage Vpy ref, irradiation S, and cell temperature T, change their values abruptly 


every 0.5 seconds. 
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1 Einfuhrung 


Elektrofahrräder (kurz ,,E-Bikes“) sind aus der modernen Mobilität nicht mehr 
wegzudenken und gewinnen stetig an Bedeutung [1, 2]. Die steigenden Ab- 
satzzahlen motivieren Entwicklungsarbeiten an kompakten und leichten Batte- 
rieladegeräten. Im F&E-Projekt „SCharger“ des Fachbereichs Elektrotechnik 
und Informationstechnik der Hochschule Fulda werden solche Verbesserungen 
untersucht. Aufbauend auf einer Resonanzwandler-Topologie mit einem LLC- 
Schwingkreis (s. Bild 1) wird erforscht inwiefern abseits von der üblichen 
gleichstrom- und gleichspannungsorientierten Ladestrategie eine Batterielade- 
strategie mit einem AC-Batteriestrom und einer DC-Batterieladespannung (AC 
- engl. „alternating current“, DC - engl. „direct current“) durch Ausbau des 
üblichen Zwischenkreiskondensators ermöglicht werden kann [3, 4]. Der Ver- 
zicht auf dieses Bauteil bewirkt eine pulsierende 100 Hz-Netzspannung, die 
wiederrum permanente Parameteränderungen hervorruft. Diese und viele wei- 
tere nichtlineare Effekte stellen hohe Anforderungen an das Modell und das 
darauf basierende Steuer- und Regelgesetz. 
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Bild 1: Schaltplan eines LLC-Resonanzwandlers mit ausgangsseitiger Batterie. 


Der vorliegende Beitrag zeigt in Kürze die simple Modellierung des LLC- 
Resonanzwandlers mit Hilfe von Takagi-Sugeno (TS) Fuzzy-Modellen, die 
einen systematischen Reglerentwurf in künftigen Arbeiten vereinfachen soll. 
Hierbei werden die Kleinsignalmodelle von Mohammedi et al. [5] als Submo- 
delle innerhalb des TS-Systems verwendet und somit das Großsignalverhalten 
approximiert. Der Beitrag legt den Fokus auf die Modellierungsergebnisse. 


2 Lineare Kleinsignalmodelle für LLC-Wandler 


Die mathematische Modellbildung von LLC-Resonanzwandlern kann auf un- 
terschiedlichen Wegen erfolgen. Mohammedi et al. schlagen in [5] eine neue 
Methode zur Modellbildung eines LLC-Wandlers mit Hilfe des sog. „Homopo- 
laritätszyklus“ vor. Der Homopolaritätszyklus beschreibt hierbei, zu welchem 
Anteil innerhalb eines Schaltzyklus die Polarität der Inverterspannung Vin und 
die Polarität der Sekundärkreisspannung vsec das selbe Vorzeichen besitzen. In 
Kombination mit der Schaltfrequenz fs (Stellgröße) der Leistungsschalter in 
der Halbbrücke und der Resonanzfrequenz 


1 
r = [ 1 
f 2m C,L; ) 
können nun die zwei Arbeitsbereiche f, < f, (Boost-Modus bzw. Resonanzfall) 
und f; > f, (Buck-Modus) definiert werden. 


Für jeden Bereich schlagen die Autoren jeweils zwei lineare Übertragungs- 
funktionen vor, welche die Ausgangsspannung Ŷ, in Abhängigkeit von der 
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Schaltfrequenz fs sowie der Eingangsspannung v;„ wie folgt zusammenfas- 
sen: 


Pols) = Gy fs(8) : Fs($) + Govin(s) Vin(s) (2) 
o(s) = Gu,fs(5) “fs (s) T Ga,vin (s) "Pin (s) (3) 


Die Indizes b bzw. a deuten den unteren Arbeitsbereich („below“) bzw. den 
oberen Arbeitsbereich („above“) an. Der Resonanzfall fs = f, ist dabei in 
Gleichung (2) abgedeckt. Aus Platzgründen wird auf die Darstellung der Über- 
tragungsfunktionen verzichtet und auf die Veröffentlichung [5] verwiesen. Alle 
Übertragungsfunktionen weisen ein schwingungsfähiges Verzögerungsverhal- 
ten zweiter Ordnung auf. Die jeweiligen Dämpfungsgrade und Eigenkreisfre- 
quenzen der Übertragungsglieder sind hierbei insbesondere abhängig von der 
Eingangsspannung Vin und der Schaltfrequenz fs. Wie im nächsten Abschnitt 
deutlicher gezeigt wird, lassen sich für das Batteriestromsignal sehr ähnliche 
Aussagen treffen. 


3 Approximation über Takagi-Sugeno-Modell 


Die Erweiterung des LLC-Resonanzwandlers von Mohammadi et al. [5] um 
eine Batterielast am Ausgang gestaltet sich vergleichsweise einfach, wenn in 
Reihe zum ohmschen Lastwiderstand eine DC-Spannungsquelle eingefügt wird 
(s. Bild1) und zugleich die Annahmen gelten, dass sämtliche Änderungen des 
Batteriestroms nicht vorhanden und die DC-Batteriespannung konstant ist. 


Vo — Vhat dihat 
Roat i ot 


=0, Vba = const. (4) 


lbat = 


Uber diese Annahmen und den Herleitungen in [5] lässt sich damit explizit eine 
Gleichung für den Batteriestrom ipar (s) im Laplace-Bereich aufstellen. 
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Zugehörigkeitsgrad 
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Bild 2: Äquidistante Gauß’sche Zugehörigkeitsfunktionen der Schaltfrequenzen. 


Um nicht den Rahmen des Kurzbeitrags zu sprengen, wird im Folgenden auf 
die Herleitung verzichtet. 


Ipat (s) = Gi.x,fs (s) ‘fs (s) + Gix,vin (s) Din (s) 
+ Gixwvbat (S): Vbar(s)+ãy mit x= {b,a} (5) 
In obiger Gleichung stellt die Übertragungsfunktion Gi x, vbat (s) für alle Berei- 


che b und a nur eine Verstärkung dar. Dies gilt auch für den affinen Teilterm ä,. 
Die Ubertragungsfunktionen für f,(s) sowie Pin (s) sind jedoch vom Arbeitsbe- 


reich abhängig. 
Kp fs 5 (Ys = Op) Kb vin 
ee © 
Ka fs Ka,vin 
Gig (8) = >_> > Giayin(S) = = a 7 
‚a,fs (s) = + Gas + Ba ‚a, n(S) 52 = Aus + Ba ( ) 


In den Gleichungen (6) sowie (7) ist angedeutet, dass das charakteristische Po- 
lynom je nach Arbeitsbereich unverändert bleibt. Jedoch sind strukturelle An- 
derungen im unteren Arbeitsbereich zu beobachten: Die Übertragungsfunktion 
der Schaltfrequenz im unteren Arbeitsbereich G; p, fs(8) besitzt eine Nullstelle 
in der rechten s-Halbebene. Im oberen Arbeitsbereich verschwindet diese Null- 
stellen hingegen (s. Gi. fs(s) in Gleichung (7)). Das lokale Systemverhalten 
eines LLC-Resonanzwandlers verändert sich also in jedem Schaltzyklus nicht 
nur hinsichtlich des Dämpfungsgrades und der Eigenkreisfrequenz, sondern 
auch bezüglich der Struktur (Nullstelle). 


Im Rahmen des SCharger-Projekts werden alle Arbeitsbereiche innerhalb einer 
100 Hz-Periode zyklisch durchlaufen. Die einzelnen Übertragungsfunktionen 
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müssen daher miteinander verknüpft werden. Die Verknüpfung geschieht über 
ein TS-Modell mit N Submodellen, welches die Schaltfrequenz f, als Schedu- 
lingvariable in der Prämisse nutzt. Die Gauß’schen Zugehörigkeitsfunktionen 
Lj(fs) gewährleisten hierbei ein „weiches“ Umschalten zwischen den Arbeits- 
bereichen. 


N 
ipar($) = I, hj: (Gi.j,rs(s) - P(S) + Gi,j.vin- Fin (8) 
1 


=. 
Il 


F Gi, j vbat " Vbat (s) oP dy) (8) 


hj = Hj (9) 


N 
j=l Hi 


4  Simulationsergebnisse 


Die im Paper [5] gegebenen Parameter des LLC-Wandlers werden in einem 
MATLAB/Simulink-Simulationsmodell übernommen. Der Resonanzwandler 
besitzt eine Resonanzfrequenz bei f, = 96kHz. Es werden N = 5 Zugehö- 
rigkeitsfunktionen u; mit j = 1...N um f, definiert, deren Erwartungswer- 
te bei äquistant-verteilten Stützpunkten der Schaltfrequenz f, angesetzt wer- 
den (s. Bild 2). Die Modellierungsgüte des TS-Modells wird anhand einiger 
sprungförmiger Anregungen der Schaltfrequenz f, bzw. der Eingangspannung 
V;„ im Bild 3 veranschaulicht. 


5 Diskussion und Ausblick 


Anhand der Experimente im Bild 3 wird deutlich, dass die Modellierungsgüte 
im oberen Arbeitsbereich (hohe Schaltfrequenzen fs) aufgrund von hohen Feh- 
lern von bis zu 2 A gering ist. Allerdings ist die Güte im unteren Arbeitsbereich 
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Bild 3: Sprungförmige Anregungen des Simulinkmodells und des TS-Modells über die Eingangs- 
spannung und die Schaltfrequenz. Zur Zuordnung der Basisfunktionen vgl. mit Bild 2. 
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inkl. des Resonanzfalls (fs < f,) als sehr gut zu bewerten. Anhand der sprung- 
förmigen Anregungen wird zudem deutlich, dass die Übergangsvorgänge hin- 
sichtlich der Dynamik zufriedenstellend abgebildet werden. Währenddessen 
zeigt der Batteriestrom ipat, iin, welcher aus der linearen Übertragungsfunktion 
für den Resonanzfall f, = fs = 96 kHz resultiert, eine deutliche Schwingnei- 
gung auf. Das TS-Modell liefert über den gesamten Arbeitsbereich insgesamt 
bessere Ergebnisse, als die einfache lineare Übertragungsfunktion. Gleichzeitig 
trägt es zu einem besseren Systemverständnis bei, das bei weiterführenden 
Untersuchungen eine wertvolle Grundlage bilden wird. 


Weiterführende Arbeiten werden den Prämissenraum um die Eingangsspan- 
nung Vin erweitern und untersuchen, inwiefern durch eine Erhöhung der Anzahl 
der Zugehörigkeitsfunktionen je Schedulingvariable sowie über deren Positio- 
nierung im Prämissenraum eine Verbesserung der Modellierungsgüte erzielt 
werden kann. 


Die vorliegende Veröffentlichung ist im Rahmen des Förderprogramms ,,For- 
schung für die Praxis“ durch das Hessische Ministerium für Wissenschaft und 
Kunst gefördert worden. 
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Abstract 


This present paper aims at identifying and classifying pollen grains by using 
binary 2D projection images of the particles. While the magnitude spectrum 
of the Fourier transformations and the geometric moments are established met- 
hods of classic pattern recognition of binary images, we use the Generalised 
Nonlinear Circular Transform (GNCT), which is a non-linear spectral trans- 
formation that generates a feature vector. 


In order to use the GNCT approach for the classification of binary 2D pollen 
projections, a number of receptive fields (a separate area in the image) is placed 
over the image in a pre-processing step. The points of intersection between 
the receptive fields and the pixel points are segmented and then converted 
into a ID signal. Subsequently, the generalized circular transformation is 
applied. Thereby, the translation-invariant vectors of the individual receptive 
fields, which result from the GNCT, are averaged by using group theory and 
interpreted as features. 


It is shown that the feature generation is significant for the accuracy of the 
classification when using binary 2D projection images. Therefore, a compa- 
rison between the classical Fourier transformations and the GNCT approach 
is conducted. Advantages and disadvantages of both feature generators are 
discussed with a strong focus on the overall algorithm’s robustness and the 
separability of the naturally occurring pollen particles. 
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1 Introduction 


As one the most common chronic diseases in adults, over 20% of the European 
population suffer from an allergic reaction that is accompanied by symptoms 
such as puffy eyes, the urge to sneeze or shortness of breath [1]. One of 
the main causes is the hypersensitive reaction of the human body to special 
aerosols such as pollen [2, 3, 4]. It is therefore very advantageous for the 
affected people to know the air quality with regard to the concentration of pol- 
len. Imaging measurement techniques may provide useful tools in this respect, 
but pollen identification and classification put high demands on classification 
systems. Especially the practical image processing and pattern recognition of 
naturally occurring objects is inevitably subject to various process and sig- 
nal distortions. Applications which serve to recognise natural objects rely 
on variation in size, shape, orientation, and spatial position of the particles 
and generate features for the objects that are invariant in terms of rotation, 
translation, and scaling. Tools in pattern recognition as well as signal and 
image processing that meet these requirements are the non-linear one- and 
two-dimensional spectral transformations. Examples in which the spectra were 
used to extract features can be found in [5, 6]. In [7] a method is presented, 
which enables the extraction of translation-invariant features with the help of 
fast non-linear spectral transformations. The method is a generalised method 
for calculating circular transformations and is based on the concept of charac- 
teristic matrices. Thereby, the circular transformations show a superiority over 
the magnitude spectrum of the Fourier transformation for 1D binary signals. In 
[8] an accelerated procedure of this method is presented, which can operate on 
2D images. Due to its very low computational complexity, the algorithm is very 
well suited for implementation on hardware. The presented method from [7, 8] 
is used in this work to obtain characteristics of naturally occurring particles, 
here special aerosolls (pollen). For this purpose, binary 2D projections of 
allergologically relevant pollen are used. 


The present paper is structured as follows: In the first part of the next section, 
the theory of the average group is introduced. Subsequently, the basic idea 
of the circular transformation is explained before the approach to feature ex- 
traction by means of the circular transformation for 2D images is presented. In 
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the third section, the algorithms of the circular transformation and the magni- 
tude spectrum of the Fourier transformation are applied to the data sets of the 
binary 2D pollen projections and the results are described. In the fourth section 
the results are evaluated. 


2 Methods 


2.1 Average Group 


In this section, we explain the basic idea for the construction of invariant 
features F by using a transform group, which has been presented in [9, 10]. 
An invariant feature is a complex-valued function, which is invariant with 
regard to the action of the transformation group g on an image Y, i.e. F(gY) = 
F(Y)Vg € G. This approach is based on the averaging of a group, which can 
be described as 


FO) = [i sevde with|al= | Fede @ 


Hereby, G indicates the group and f refers to the complex-valued function. The 
complex-valued function f can be chosen arbitrarily and does not necessarily 
have to be invariant. 


In [9], a group of image translations and rotations is used. Given an image 
YeRN“M, an element g € G, an angle @ € [0,27], and a translation vector 
t = (io, jo)” € R?, then the transformation can be expressed as follows 


NE = YlR (2) 


k\ [ cos@ —sing i io 
I) \sin® coso EP NN 


with 
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In this equation, i and j are the pixel coordinates. Using the transformation in 
(2), equation (1) can be transformed into the following equation: 


1 N M 2n . . 
F(Y) = a I ie | EN 46 dio 3) 


In (3), N and M represent the size of the image. 


Due to the discrete image, the integration into (3) can be supplemented by the 
following summation: 


1 N-1M-1 P ay p 
E a DER (8 (iog =22-2) Y). @ 


2.2 Generalised Nonlinear Circular Transform 


In [11], the Generalised Nonlinear Circular Transform (GNCT) was presen- 
ted. GNCT is a method which is suitable for the analysis of periodic and 
transient signals. The method uses non-linear spectral information to generate 
translation-invariant features. For a signal S € RP, the characteristics have 
the size /d(P)+1. This section introduces the main properties of the gene- 
ralised circular transforms. If x = (xo,x1,...,xp_1)! is the input vector with 
the restriction x, € R while A and B describe the quadratic transformation 
matrix and its inverse, respectively, then the following equation expresses the 
corresponding circular transformation CT: 


1 
X=Ap:x and x= 5 Bp X. 


Hereby, X = (Xo,X1,...,Xp_1)/ represents the output. 


On the basis of the Hadamard Matrix 


Ae =i 
x-| 


? 


yii 
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the transformation matrices are recursively generated. 
Ap = diag (/Tp/2,Ap/2) « [K @Ip/p| (5) 


and 
Bp = diag ('Tp/2,Bp/2) - [K 8 Ip/2] . 


I is the identity matrix while ‘T and "T are the generalised characteristic 
matrices. The indices in (5) indicate the dimensions of the square matrices. 
Depending on the definition of the characteristic matrices, different transfor- 
mations with different properties are mapped. A derivation of the characte- 
ristic matrices is shown in [7]. The characteristic matrices T are generated 
by the means of the generalised circular matrices gC. For a fixed integer 
k€ {0,1,...,P—1}, the square matrix *Jm := (8n.n+4) is mapped by the means 
of the Kronecker Symbol 


1 — 
buon es with m,n € {0,1,...,P—1}. 


The generalised circular matrices gC are defined as 


gC = Y-In tA: (‘In =" m)  YVAERo. 
The definition contains 


"te= TI Ce). 


In order to generate translation-invariant features of a signal S, the parameters 
y,A € Ro are chosen in a way that the absolute values of the spectrum G also 
remain unchanged even if the input is translated. This, again, corresponds to 


b 


G; = y |X;| 


ja 
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with 


gk+1 —1 


ke 10,1,...,Id(P) -1}. 


2.3 Approach to Pattern Recognition of Binary Images 


The approach presented in [9] uses polynomials for the function f(gY). This 
leads to a scalar feature for (4). For the pattern recognition of different classes, 
a global sum would reduce the information required for the differentiation of 
classes. For this purpose, [8] presents an alternative in which the GNCT was 
used as the nonlinear function f(gY). Against this background, the following 
equation can be formulated: 


brl (io, j0.6 =2n- 2) Y) =GNCT (s (io, jo.6 =27- 4 Y) 6 


While r € N indicates the radius, P € N represents the number and p € {0,1,..., 
P — 1} the index of the pixel neighbours under consideration. Figure 1 shows 
a visual illustration of the corresponding equation. 
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NZ: 


Figure 2: Three different Layers of the receptive field. 


In the approach presented in [8], only the translation groups g, € G were used. 


Thereby, g,(n,m,®) = g(io = 2rn, jo = 2rm,@) while n,m € No. Our research 


project seeks to explore the question of whether pattern recognition of binary 
images is possible by applying this method. For this purpose, we expand 
the approach by using different translation groups g, to create the invariant 
features (see Figure 2 ). In general, for our approach, the invariant features are 
summarised as follows: 


F(Y,r) = [Foo (¥,7)" Fo (Y, r)", F 1 (Wr) ]" 


Thereby, the following applies 


2 N_ıM_ı 
T R S 1+4 l+h 
nr) E E ONCT (vr (n+ 5 m+ 5 9) Yio). 
n= m= 


3 Experiment and Results 


In order to assess in how far the approach introduced represents naturally 
occurring particles (pollen), which possess a certain scatter in shape and size, 
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(b) Ambro- (c) Arte- 


(a) Alnus sia misa (d) Betula (e) Corylus (f) Poaceae (g) Secale 
(i) Ambro- (m) Poa- 


(h) Alnus sia (j) Artemisa (k) Betula (1) Corylus ceae (n) Secale 


Figure 3: The allergologically relevant pollen (resolution for a-g: 1Pixel = 0.lum x O.lum, 
resolution for h-n: 1Pixel = 5um x 0.1 um) 


the method needs to be examined for separability and robustness. For this 
purpose, the binary projections of the allergologically relevant pollen Betula, 
Alnus, Poaceae, Corylus, Artemisia, Ambrosia, and Secale are used. Usually, 
the pollen are analysed and classified manually by experts [12]. Thereby, the 
pollen differ both in terms of both their cellular components (for the present 
research project, no information in this regard is available to us) and their 
external morphology, which is mapped with 2D binary projections. Figure 
3a-3g shows a visual representation of the 2D projection of the pollen under 
consideration. A total of 500 projections per pollen are used for training and 
the subsequent classification, whereby each pollen represented has a different 
geometric dimension. The images have a size of 800 x 800 pixels. In addition, 
also images with lower resolutions (see Figure 3h-3n) are used in order to be 
able to make better judgements about the robustness of the approach sugge- 
sted. 


For all 1D circular transformations, the parameters y = 1 and A = 1 and the 
radii r € {2,5,10} for the circular circles are chosen so that the length of the 
input vectors P = 16, Ps = 32, and Pıo = 64. 


The Fourier descriptors are used as a benchmark for assessing the separability 
and robustness of the method. A detailed derivation of the Fournier descriptors 
(FD) and their invariance with respect to rotation, translation, and scaling are 
described in the works [13, 14, 15]. 
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Figure 4: Confusion matrices with dataset resolution 1Pixel = 0.1 um x 0.lum 
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Figure 5: Confusion matrices with dataset resolution 1 Pixel = 5um x 0.1 um 
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The results of the experiment with regard to separability are illustrated in Fi- 
gure 4 in the form of confusion matrices. As Figure 4b shows, for the data set 
with a high resolution (see Figure 3a-3g), the use of Fournier descriptors yields 
a success rate of 100%. That is, all particles are correctly classified. Thus, it 
can be deduced that the individual particles in the binary 2D images have suffi- 
cient structural characteristics so that they can be clearly separated. Compared 
to the Fourier descriptors, the GNCT concept presented has the advantage that 
no calculation of the contour is necessary in a preprocessing step so that the 
preprocessing is therefore easier than with the Fourier descriptors. However, 
the FD algorithm achieves a significantly better separation property in terms of 
separability (see Figure 4a). Therefore, using the GNCT approach, only 90.6% 
of the particles are correctly classified. The misclassifications mostly involve 
the Betula and Artemisa pollen. One reason for this is that the geometric size 
of the Betula pollen, for example, is roughly in the same range as that of the 
Alnus pollen. Another explanation is that the external morphology of Betula 
pollen is very similar to that of Corylus pollen. Since not every pixel value is 
used in the GNCT approach, information is lost, which, again, makes pollen 
without strongly distinctive features susceptible to misclassification. 


The loss of information and, hence, also the misclassification rate are higher 
if the resolution is low. Thus, the data set with the lower resolution, which is 
used to check the robustness (see Figure 3h-3n), contains a higher number of 
misclassified pollen. That is, even when using Fourier descriptors, only 96.5% 
of the pollen can be assigned to the correct class (see Figure 5b). When using 
the GNCT method, the classification success rate of 85.5% for this data set 
is even lower. Also in this case, it is mostly the Betula and Artemisa pollen 
that are assigned to the wrong classes (see Figure 5a). As with separability, 
the misclassification is related to the fact that these two pollen are similar to 
other pollen in terms of their geometric size and/or their external morphology. 
In addition, the lower resolution also contributes to misclassifications due to 
additional information losses. 
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4 Conclusions 


In this paper we have proposed a concept (GNCT concept) based on nonlinear 
circular transformations, which is to be used for pattern recognition of naturally 
occurring objects (pollen particles). The concept includes the application of 
the non-linear circular transformation to so-called receptive fields (separated 
areas in an image), which are then averaged with group theory. In addition, the 
Fourier descriptors have been used as a comparison algorithm. 


In contrast to other methods, no prior knowledge or information, such as about 
the contour of the objects, is needed for the application of the GNCT approach. 
Moreover, as [8] demonstrates, this approach has a low level complexity. The- 
refore, the application of the GNCT approach is simpler than other methods. 
However, compared to the FD concept, the GNCT approach provides poorer 
performance in terms of separability. In terms of robustness, both algorithms 
show a similar behavior. 


Accordingly, the application of the GNCT concept to binary images does not 
lead to a satisfactory result, which is due to the low information content of 
binary images. When using binary images, the FD approach is indeed more 
suitable than the GNCT approach for the classification of pollen. Yet, the 
GNCT approach shows promising potential. Especially for data with more 
information content, such as non-binary images, the approach could deliver 
better results in terms of separability. Therefore, the next step is to apply the 
GNCT concept to non-binary images. 
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Abstract 


Recent research in the field of computer vision strongly focuses on deep lear- 
ning architectures to tackle image processing problems. Deep neural networks 
are often considered in complex image processing scenarios since traditional 
computer vision approaches are expensive to develop or reach their limits due 
to complex relations. However, a common criticism is the need for large 
annotated datasets to determine robust parameters. Annotating images by hu- 
man experts is time-consuming, burdensome, and expensive. Thus, support is 
needed to simplify annotation, increase user efficiency, and annotation quality. 
In this paper, we propose a generic workflow to assist the annotation process 
and discuss methods on an abstract level. Thereby, we review the possibilities 
of focusing on promising samples, image pre-processing, pre-labeling, label 
inspection, or post-processing of annotations. In addition, we present an im- 
plementation of the proposal by means of a developed flexible and extendable 
software prototype nested in hybrid touchscreen/laptop device. 
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[RH 


Unlabeled dataset ZU Human annotator Labeled dataset 7! 


Figure 1: Naive Workflow: A human annotator iterates over an unlabeled dataset 2 to 
sequentially label a sample x in order to generate labels y to build a labeled dataset 
F without any form of assistance. 


1 Introduction 


Current research in the domain of image processing is focused on Deep Le- 
arning (DL) architectures. Deep Neural Networks (DNNs) like for instance 
Convolutional Neural Networks (CNNs) show very promising results to solve 
computer vision tasks like image classification or segmentation. For example, 
AlexNet [1] with more than 80.000 citations (date of statistic: May, 2021) 
w.r.t. image classification on ImageNet [2] shows the impact of DL in the 
field of image processing. Walsh et al. [3] argue that DNNs are beneficial 
to achieve accurate prediction quality in complex scenarios like biomedical 
applications. 


However, the authors in [3, 4] name as one general bottleneck of DL that 
image annotation! is time-consuming and often requires expert knowledge as 
a bottleneck. Besides, following the arguments of Northcutt et al. [5], label 
quality can negatively affect model performance. This may lead to a selection 
of sub-optimal machine learning models since benchmarks with errors in labels 
are not reliable in general. Karimi et al. [6] argue that especially in small data 
scenarios like biomedical problems, an erroneous annotation may significantly 
reduce the performance of DNNs. 


The naive way to generate a labeled dataset 2! = {(x;,y;) |i=1,...,M} com- 
posed of M instances is represented in Figure 1. An annotator adds sequentially 
corresponding labels y; to samples x; of the unlabeled dataset J" = {x; | i = 


! Label and annotation are used as a synonym in this article. 
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1,...,N} assembled of N > M instances without any form of assistance. The 
labeled dataset 2! incrementally increases during labeling. 


There are several ideas to enhance image annotation for the development of 
DL applications w.r.t. decreasing annotation effort and improving annotation 
quality which will be presented as an overview in Section 2. 


Current research predominantly focuses on separate aspects of ways to en- 
hance a naive generation of annotated datasets. However, to the best of our 
knowledge, there is no generic workflow summarizing and combing ideas of 
improving the image annotation procedure. We are structuring the ideas and 
thereby propose a comprehensive workflow. The proposal is intended to serve 
as a template that can be used as an initial starting point for DL projects in 
cases where a labeled dataset for supervised learning is required. 


Our key contributions are the following: 
e asurvey of methods/approaches to assist data annotation for DL, 


e a generic workflow build on meaningful combinations as well as exten- 
sions of them, and 


e the introduction of a developed and extendable software prototype which 
can be used for assisted labeling in practical problems. 


Related work is summarized in Section 2. Our workflow and methods are 
presented in Section 3. Besides, the software implementation is described in 
Section 4 following obtained results in Section 5. Finally, we conclude our 
work in Section 6. 


2 State of the Art 


The requirement of annotated data is an often addressed issue in the context of 
supervised DL approaches. Data efficient architectures [7, 8], self-supervised 
learning [9], semi-supervised learning [10], and transfer learning [11] are 
methods to deal with hurdle of obtaining labeled data from the perspective 
of network architecture/training. Considering data annotation, there are two 
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aspects to take into account - labeling effort [3, 4] and label quality [6, 5]. In 
general, decreasing manual effort for users while maintaining high label quality 
is desired. 


There are basic software packages like LabelMe [12], Pixel Annotation 
Tool [13], Image Labeling Tool [14] or the basic release of Fiji/ImageJ [15] 
for annotating images in the context of segmentation like depicted as naive 
workflow in Figure 1. 


In the context of labeling, Deep Active Learning (DAL) surveyed in [16] is 
proposed as a method to reduce labeling effort. The key concept of the mostly 
considered pool-based sampling is using a more elaborate sampling strategy 
in contrast to do a straightforward sequential approach. Based on a criterion, 
also named as query strategy, the human annotator should focus on the most 
promising samples instead of annotating without any sampling strategy naively. 
As depicted in [16], criteria can be in terms of model uncertainty or diversity 
of the dataset (e.g. measured via distances in latent feature space). However, 
DAL research mainly focuses on a theoretical perspective. Implementations 
in open-source labeling tools like [14, 17, 18, 19] lack, only few commercial 
supplier like Labelbox [20] provide interfaces to affect sampling. 


A few software tools already have implemented the idea of pre-labeling. The 
general idea of pre-labeling is using a heuristic as an initial guess to simplify 
labeling. For instance, the Computer Vision Annotation Tool [19] or Fiji/I- 
mageJ plugins presented in [17, 18] implement an interface for using deep 
learning models in order to do image pre-labeling. However, Fiji/ImageJ is 
implemented in Java and consequently a deployment of models nested in state- 
of-the-art python-based frameworks like PyTorch [21] or TensorFlow [22] re- 
quires additional effort. Commercial tools like Labelbox [20] also offer an 
interface to upload pre-labels. Besides, there is a function in terms of automa- 
tically creating clusters of pixels based on regional image properties in order to 
simplify labeling. The tool ilastik [23] enables semi-automatic image segmen- 
tation by a combination of edge detection and watershed algorithm [24]. The 
authors in [25] propose a pipeline for obtaining initial labels based on traditi- 
onal image processing approaches like Otsu thresholding [26] and watershed 
algorithm [24], but an open-source software implementation lacks. Moreover, 
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the tool LabelMe [12] offers functionality to use previous neighboring labels 
as pre-labels which may be beneficial for 3D/spatial or temporal data. 


Furthermore, image pre-processing is another form of assistance in the con- 
text of image annotation. For instance, Fiji/ImageJ offers a raw image pre- 
processing with operations like adjustment of the contrast or noise filtering. 
The software BeadNet [27] is an example for image preparation in the sense 
that images are resampled in order to simplify labeling. 


Karimi et al. [6] and Northcutt et al. [28] address the issue of noisy labels 
and survey options to handle them. For instance, the authors in [6] present 
methods like pruning wrong labels, adapting DNN structures, developing more 
elaborate objectives, or changing training procedures to cope with noisy labels. 
Northcutt et al. [28] propose Confident Learning, which is a method for pruning 
wrong labels in a labeled dataset after labeling has finished. Hereby, each 
sample is ranked concerning the disagreement between predictions of a trained 
model and corresponding noisy labels. However, the ideas are detached from 
the actual labeling process and focus on classification. 


In particular, the idea of giving direct feedback concerning segmentation la- 
bels is a concept that is not considered in state-of-the-art approaches. Hence, 
software tools do neither support the possibility of scoring labels w.r.t. quality 
nor allow post-processing of them. Only some tools like Labelbox [20] enable 
manual tagging of images for a review process in order to allow further manual 
inspection by other annotators. 


The toolbox LabelMe [12] allows using watershed algorithm [24] in order 
to do post-processing of coarse annotations. However, state-of-the-art tools 
lack w.r.t. post-processing functions allowing customization depending on the 
problem. 


Moreover, the general approach is that labeling is performed using a mouse as 
input device. The work of [29] compares mouse devices with touch devices. 
The experiments of the authors show that in case of bimanual tasks, like fitting 
a mask on an object, touchscreens are beneficial. 


The main open problems/questions of related work can be summarized in: (i) 
no definition of a comprehensive workflow combining different approaches of 
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improving image annotation, (ii) lack of smart methods concerning sample 
selection directly integrated into the annotation process, (iii) no possibility 
for direct feedback w.r.t. label quality in the annotation process, and (iv) a 
missing flexible software implementation to make use of combinations of label 
assistance. 


3 Methods 


3.1 Properties and challenges in datasets 


In order to introduce a workflow, we give a brief overview of properties in 
datasets and arising challenges as one part of our contribution: 


e A dataset may have temporal or spatial relations like videos or 3D ima- 
ges. In this case, neighboring frames are often very similar. 


e Related to this, datasets composed of video sequences are often very 
homogeneous within a scene, but quite heterogeneous when comparing 
different sequences. 


e Dealing with for instance microscopy images, areas of interest may be 
depending on relative changes in gray value/color channels. Thus, not 
the whole value range in high-resolution images is relevant. 


e Furthermore, noise in datasets may impede image annotation. 


e The level of difficulty to solve the task can range from already available 
heuristics to solve the problem coarsely to hard problems. Here, there 
are no ways to tackle the problem directly. Besides, within a dataset, 
there may be a variance in examples w.r.t. difficulty to interpret them. 


e Depending on the problem, there is often prior knowledge before starting 
labeling, e.g. a specific number of segments per sample or the desired 
property of no holes within a segment. 


e Annotations by humans are not guaranteed to be perfect. Intra-observer 
and inter-observer variance may lead to errors. 
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Unlabeled dataset 2" Selector Pre-Assistance Human annotator Post-Assistance Labeled dataset 7! 


Figure 2: Assisted Labeling Workflow: A selector chooses promising samples x* out of the 
unlabeled dataset 2". The pre-assistance and post-assistance module guide the human 
annotator during the labeling procedure. Final labels y are obtained and the labeled 
dataset 2! increases gradually. 


The aforementioned properties serve as motivation for following presented 
approaches and methods included in the workflow proposal (Section 3.2). 


3.2 Workflow 


Our proposed workflow is represented in Figure 2. Firstly, starting from a 
unlabeled dataset 2", a selector (cf. Sec. 3.3) prioritizes between all unlabeled 
samples and favors the next sample to label, denoted as x*. The subsequent 
pre-assistance module can yield assistance in two ways: providing pre-labels 
(cf. Sec. 3.4.2) as initial guesses as well as pre-processing of samples (cf. 
Sec. 3.4.1) to simplify annotation. Afterward, the labeling is done by the 
human annotator. This process can be performed using different input devices 
as depicted in Section 3.5. Finishing the labeling of the sample, post-assistance 
is a further part of the workflow. On the one hand, labels can be inspected based 
on defined metrics in order to provide feedback to the human annotator (cf. 
Sec. 3.6.1). On the other hand, based on post-processing functions, corrections 
of the labels are possible (cf. Sec. 3.6.2). Hence, the final label y is obtained 
and the number of labeled images in J! increases. It should be noted that 
Figure 2 represents the workflow in total, but in practical applications, the 
assistance is related to the dataset/task. Hence, in general, not all modules 
need to be activated. 
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The following sections are composed of two parts: an introduction of the 
concept in general and presented methods. Results of the presented methods 
can be found in Section 5. 


3.3 Selector 


General Concept The basic idea of the selector is to allow the user to affect 
the sampling of images during the labeling procedure and focus on promising 
samples x* instead of labeling all images. Let an abstract query strategy, 
denoted as a; € &, be part of the set < of A query strategies. Thus, a; takes 
all unlabeled samples of Y" into account and maps to a score s;(x) € [0,1] 
regarding each sample x. An increasing s;(x) describes more relevance of a 
sample. To provide a generic sampling approach, the final score is obtained 
using weighted averaging 


1 A 


= LM) (1) 


j=1 "j j=1 


based on weights wi > 0 in order to favor query strategies. The weights wi 2 
0 are hyperparameters that need to be obtained depending on the underlying 
problem and query strategies aj. The next promising sample is obtained by 


x* = argmax s(x). 
xe(2u\ 2!) 


Presented Methods Examples for query strategies in the context of DAL can 
be found in [16], like for instance using model uncertainty or heterogeneity for 
sampling. Firstly, we present a novel cherry-picking function for users. The 
annotator could inspect the dataset and assign s;(x) = 1 for relevant samples x 
or s;(x) = 0 for images which should not be considered directly at the beginning 
of the labeling. This clears the hurdle of manually creating a list in parallel, to 
mark relevant samples. 


Furthermore, we investigate the potential of an automated selector in the con- 
text of a sequential dataset. Thereby, we introduce two additional query strate- 
gies apart from the traditional ordered sequential sampling. On the one hand, 
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random sampling can serve as a query strategy. On the other hand, we propose 
a sequence-aware sampler. If the Euclidean difference in reduced gray-level 
feature space between two images is larger than a pre-defined threshold, a 
new sequence or strong change within a sequence is detected. Afterward, 
the sampler selects randomly a sample per cluster and only if each cluster is 
represented in 2!, a cluster is considered multiple times. It should be remar- 
ked, that for complex problems a more elaborate feature reduction method is 
advantageous. 


3.4 Pre-Assistance 
3.4.1 Image Pre-processing 


General Concept The key idea of image pre-processing is not directly dis- 
playing the initial raw image during image annotation. Instead of this, a pre- 
processed image is generated. Abstractly speaking, the image pre-processing 
module is a generic function h which yields a pre-processed form of the raw 
sample x in terms of 

K = h(x). (2) 


The objective is to accelerate annotation via displaying X where image under- 
standing is simplified. However, it should always be considered the same pre- 
processing during labeling a specific dataset since varying image modalities 
may lead to inconsistent annotation results. 


Presented Methods The desired methods are highly correlated to the de- 
picted dataset. Therefore, we limit our presented pre-processing to two exam- 
ple functions h: noise filtering to deal with noisy samples and image norma- 
lization to handle high-resolution images with relative changes as depicted in 
Section 3.1. Custom functions can be easily implemented to find a solution 
that is suitable for the individual problem. 
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3.4.2 Pre-labeling 


General Concept The main idea in the pre-labeling module is utilizing prior 
knowledge/heuristics, which can serve as an initial guess. Since a correction of 
labels is in many cases easier than starting labeling from scratch, we propose 
pre-labeling to boost the annotation of images. Generally speaking, an initial 
guess 

¥ = I(x) (3) 


is proposed applying a pre-label function /. However, it must be considered 
that pre-labeling is only meaningful if a function exists that solves the problem 
coarsely. In cases where / predicts mostly wrong labels, correction can slow 
down annotation in contrast to boost it. To evaluate quality and suitability of a 
pre-label function, e.g. Dice-Sgrensen coefficent [30] 


= Ty 1 +190) | me 


can be utilized as metric comparing initial guess ¥(x) and ground truth y(x). 
Hence, the most suitable pre-label function / or a failure of pre-labeling in total 
can be determined via (4) evaluating a small set of labeled images. 


Presented Methods Pre-labeling functions may be various as presented in 
Section 2. We present several approaches in our software prototype, which 
can be extended. Firstly, the traditional Otsu segmentation algorithm [26] is 
shown in order to assist in easier segmentation problems like enumerated in 
Section 3.1. Moreover, we present pre-labeling via DNNs which have already 
been trained on a subset of labeled samples or datasets of adjacent domains. 
This is beneficial in difficult image processing problems, where no suitable ot- 
her heuristic exists. Besides, for sequential datasets (e.g. time-series or spatial 
relations) a pre-labeling is shown where previous adjacent labels are presented. 
Though, in this case, only a sequential image sampler is meaningful. 
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3.5 Human Annotator 


General Concept Following the results of Forlines et al. [29], the general 
idea of the proposed workflow w.r.t. human annotation increases flexibility. 
Hence, the input device is seen as a selectable parameter of the workflow. 


Presented Methods The status quo in the context of image annotation is 
using a mouse as an input device. We present an extension of utilizing a 
touchscreen for image annotation. Thereby, the touchscreen can be used with a 
touch pencil and fingers as well to provide a maximum level of flexibility and 
adaption to annotators’ preferences. 


3.6 Post-Assistance 
3.6.1 Label inspection 


General Concept As motivated in Section 2, label inspection addresses 
noisy labels in datasets. The general idea is to score the annotations based on 
G metrics g; € Y which form a set Y. Each metric g; maps labels y to quality 
scores Y; € [0, 1]. A warning is thrown, if the final weighted score 


yy) = See 3 wi YY) (5) 


falls below a user defined warning threshold % € [0,1]. Analogously to equa- 
tion (1), weights wi > 0 allow to prioritize metrics in the final scoring. The 
user can reinspect the labels in case of y(y) < % and errors may be recognized 
immediately. 


Presented Methods Metrics to inspect labels of human annotators can be 
various. We present in our software prototype methods which rely on expert 
knowledge. Thereby, we use these priors in combination with region proposals. 
Thus, the number of holes within a segment or number of segments serve as 
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a quality measure. Thereby, we compare the deviation to a target property 
defined by an expert (e.g. only one segment per sample). Since the metric is 
highly correlated to the problem, custom metrics can be implemented to extend 
the software functionality. Moreover, using predictions of aDNN trained on a 
small set of labeled data for benchmarking purpose may serve as an alternative 
approach, which is more generic. However, this is currently not implemented 
in the prototype. 


3.6.2 Post-processing 


General Concept Practical experiments show that some specific errors are 
reoccurring. In these cases, post-processing can be meaningful. In general, 
we propose the opportunity to have an abstract post-processing function in the 
labeling process in order to tackle the problem of noisy labels. Hence, annota- 
tors can use this idea in cases where post-processing of labels may be helpful. 
Displaying a comparison of labels before and after post-processing ensures that 
assistance is still supervised by human annotators avoiding unwanted changes 
in post-processing. 


Presented Methods We recognized that especially holes or small noisy seg- 
ments may come up as reoccurring errors. Thus, we implemented morphologi- 
cal operators as a possibility to post-process segmentation maps. Analogously, 
the post-processing is depending on the dataset and extensions (considering 
properties like aspect ratio, size, or area) are possible. 


4 Implementation 


The whole generic workflow depicted in Figure 2 is transferred to practical ap- 
plication. Therefore, a software prototype is developed following the modular 
architecture of the presented workflow in Section 3. The proposed concept is 
implemented in a python package and therefore setup respectively integration 
via pip is easy to manage for users. Besides, the Graphic User Interfaces 
(GUIs) are developed using Qt5 [31] and thus are flexible for extensions in 
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order to do further development. We refer to the Image Labeling Tool [14] 
for drawing image segmentation masks, since it allows a very flexible way of 
including pre-labeling without modifying the source code of the tool. More- 
over, the publishers provide the tool across different platforms (Linux, Win- 
dows). All modules of our proposed workflow include examples concerning 
processing, scoring, and query functions according to Section 3. However, 
as mentioned, each module allows the implementation of custom functions in 
order to gain more flexibility. Consequently, users can customize the proposed 
workflow to the needs being faced with their individual problem respectively 
dataset. This may boost the application of the workflow prototype in the 
research community. Especially, the underlying implementation clears the 
hurdle to connect the proposed workflow with implementations based on state- 
of-the-art DL frameworks like TensorFlow and PyTorch [21, 22]. 


Our software prototype can be used in combination with Windows and Linux 
operation systems since the implementation is python-based and, using the 
Image Labeling Tool, relies on a cross-platform segmentation mask drawing 
tool. We tested it on Windows 10 and Ubuntu 20.04. The system can be 
used with desktop computers with mouse input devices and tablets as well. 
Our objective is to provide annotators (e.g. biologists) capsuled hardware, 
which allows labeling without any installation. Consequently, we deployed our 
software prototype on a Lenovo X12 Detachable which can be easily handed 
over to experts as capsuled system. This hardware allows a very flexible usage 
in terms of offering touch via fingers, touch via a pencil, and laptop mode via 
keyboard/mouse in parallel. Figure 3 shows the hardware in a practical use- 


case. 


5 Results 


5.1 Datasets 


We demonstrate an excerpt of the concept functionalities using two biomedical 
binary image segmentation datasets depicted in Figure 4. 
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(a) Tablet mode with pencil. (b) Laptop mode. 


Figure 3: Software prototype on Lenovo X12 Detachable. 


(a) Medaka [32]. (b) DMA Spheroid [33]. 


Figure 4: Datasets visualizing exemplary samples and corresponding label masks. 


Medaka Dataset The medaka dataset is presented in [32]. It has been rele- 
ased to quantify ventricular dimensions which can be relevant for the under- 
standing of human cardiovascular diseases. An accurate image segmentation 
of the medaka heart is needed in order to solve this quantification task. The 
dataset contains 8-bit RGB images and corresponding segmentation masks 
describing pixels belonging to the ventricle. It includes 565 frames of trai- 
ning data and 165 test samples. Figure 4a illustrates examples and binary 
segmentation masks. The authors in [32] use the DNN U-Net [34] to solve the 
image segmentation task. Looking at the example frames, it becomes clear that 
image segmentation is difficult in this project and thus a simple thresholding 
algorithm would fail. Furthermore, the dataset is based on roughly 30 video 
sequences and as presented in Figure 4a neighboring frames may be similar. 


Droplet Microarray Spheroid Dataset The spheroid dataset is recorded in 
a high-throughput Droplet Microarray (DMA) experiment [33]. Currently, 
the dataset is not publicly available, a description of the experiment is pre- 
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Table 1: Comparison DSC of different sampling scenarios (sequential/neighboring, random, 
sequence-aware) and dataset amounts | Dim | on medaka dataset [32]. 


Configurations 
Sequential/neighboring Random Sequence-aware Baseline 


| Hain | 32 32 32 400 


rain 


DSC in % 46.50 77.67 80.63 82.70 


sented in the work of Popova et al. [33]. DMA experiments intend to do 
investigations for drug development and therefore accurate segmentation of 
fluorescence images is needed. It contains 16-bit high-resolution mono images 
with corresponding labels obtained by an expert. Thereby, it includes 470 
frames of training data and 118 test samples. Being faced with this dataset, 
the main challenge is to distinguish between artifacts at image boundaries and 
spheroids. Thus, a straightforward thresholding approach like Otsu [26] is 
not accurate enough. Figure 4b illustrates this problem using example frames 
respectively segmentation masks. 


5.2 Experiments 


Selector To present the potential of the selector module, we first utilize the 
medaka dataset introduced in Section 5.1, which is a composition of different 
sequences. In order to evaluate the experiment, we compare DSC (4) using 
DNN U-Net [34] trained on different sampled training datasets (subsets of the 
initial training dataset) evaluated on a fixed test dataset. The baseline experi- 
ment uses almost the entire dataset (400 samples). Hereby, we compare the 
methods presented in Section 3.3. Results are shown in Table 1. A comparison 
of DNN performance in terms of DSC shows that by considering only a small 
subset, random sampling and sequence-aware sampling (selecting one random 
image of each sequence) are superior to standard labeling of neighboring fra- 
mes in an ordered sequential fashion. However, in this example, the more 
elaborate sequence-aware approach did not outperform random sampling. If 
there are no strong imbalances w.r.t. the distribution of the dataset as well 
as no priors concerning the dataset, random sampling is definitely a proper 
starting point. Moreover, it can be recognized that the gap from an amount 
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(b) Pre- 


(Raw: processed. 


Figure 5: Example pre-processing on DMA data: a raw sample (a) is processed to a normalized 
image (b) to enhance image understanding. 


Mask 


DSC = 44.10% SC = 59.68% k % DSC = 39 


Sequential sampling direction 


Figure 6: Comparison of sample, corresponding mask, and DSC between neighboring frames to 
illustrate temporal pre-labeling (sequential sampling form left to right) on the medaka 
dataset. 


of | Te. |= 32 training samples to the baseline with 400 samples is compa- 
ratively small. Hence, with an adapted sampling strategy a small amount is 


sufficient to obtain accurate results shown by a DSC > 80%. 


Pre-processing To get an impression of pre-processing, Figure 5 represents 
an example of the DMA spheroid dataset. Thereby, a raw high-resolution 
DMA mono image is compared to a pre-processed sample. The pre-processing 
function normalized the gray levels in the image. Thus, relative changes are vi- 
sible, image understanding is enhanced, and therefore annotating segmentation 
masks is simplified. 


Pre-labeling Firstly, the potential of the proposed previous label usage is 
analyzed at the medaka dataset since it is composed of video sequences like 
presented in Section 5.1. Figure 6 illustrates a sequence of the sequential 


226 Proc. 31. Workshop Computational Intelligence, Berlin, 25.-26.11.2021 


Sample 


Otsu 


Mask 


Deg 8.1- 1075 92.90 80.18 76.64 89.22 


Figure 7: Illustration of visual differences between Otsu pre-labeling and ground truth mask as 
well as DSC to quantify the similarity of masks on medaka (first column) and DMA 
spheroid samples (remaining columns). 


sampling and used pre-labels. In addition to the visual impression, DSC (4) 
is printed to compare neighboring label masks. It can be shown that the first 
three pre-labels are beneficial since there is a direct relation between frames. 
Consequently, DSC is larger than 40% in each of those frames. Especially, 
frames 3 and 4 are very similar, which can be demonstrated by a DSC = 
92.51%. However, the last frame illustrates a remaining problem in the method 
if sequences change. Hereby, the displayed pre-label is not helpful in order to 
do image annotation of the last sample. Figure 7 presents pre-labeling using 
Otsu thresholding [26]. In order to execute Otsu on RGB medaka images, an 
upstream transformation to a gray-level image space is done at first. However, 
the algorithm is not suitable as a pre-labeling strategy for medaka images, 
which, in addition to visual inspection, a DSC tending to zero demonstrates, 
too. Thus, in this case, pre-labeling would impede annotation instead of sim- 
plifying it. Nevertheless, Otsu performs very well on DMA samples shown 
by DSC > 76%. Hence, it provides helpful initial guesses w.r.t. DMA data. 
Having a closer inspection and comparing it with the ground truth masks, it 
can be recognized, that there are still small wrong mask segments. However, 
deleting the wrong mask segment, in this case, is much more efficient than star- 
ting image annotation from scratch. The main reason is that curved boundaries 
of the spheroid are already correctly predicted for the most part. 
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Pre-label 


Sample Mask | Zerain |= 8 | Arain |=16 1 Brain |= 24 |= 32 


Bein | 


DSC in % 44.82 35.57 70.92 77.29 
DSC in % 50.22 59.47 75.68 84.86 
Gee 
by SS 
> 
D ‘ S 
DSC in % 59.47 50.11 68.62 84.37 


Figure 8: Illustration of DNN pre-labeling performance: comparison different amounts of training 
data (| Pli ain |) rt. visual impression and DSC between ground truth mask and pre- 
labels respectively DNN predictions. 


Since there is no obvious heuristic for medaka dataset, we investigate how 
DNN U-Net trained on a small labeled spender can be used as pre-labeling. Re- 


sults for different amounts of training data | 9X. | following random sampling 


fa 
presented in Section 3.3 can be ee in Figure 8. We compare pre-labels and 


ground truth masks of samples x € Y.... not represented in the training dataset 


an 
by visual i peed and DSC (4) in parallel. Our experiments show, that by 


using only | 2 32 labels, a DNN can serve as a meaningful and generic 


ah |= 
pre-label strategy on medaka dataset. Furthermore, we offer in our tool the 
opportunity to export a training job that can directly be sent to data scientists 
to avoid the requirements of a graphics processing unit on the labeling device. 
Hence, the annotator only needs to select DNN weights provided by a data 
scientist. The inference time on the introduced hardware (Intel i3-1110G4) of 


tinference = 0.75 s is a feasible processing amount during labeling. 


Human Annotator User Experience We have presented our implemented 
software prototype nested in a touchscreen device to several users and have 
requested feedback concerning labeling comfort. The overall feedback of users 
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Label Map User Label Map Post-processed 


(a) Label inspection. (b) Label post-processing. 


Figure 9: Examples of post-assistance: (a) an inspector warns the user since there is more than one 
segment labeled, (b) a post-processing can be performed to fill holes. 


has been positive. Most of the users named a comfort enhancement during 
image annotation using a touchscreen. However, very experienced users w.r.t. 
mouse labeling remark that for them touchscreen labeling is not superior to 
using a mouse as an input device since they are used to it. Thus, especially for 
an average user labeling via touchscreen may facilitate access to the procedure. 
Concluding results, several possibilities of user input maintain the maximum 
level of adaption to the needs of users. 


Post-Assistance Figure 9a illustrates a label inspection evaluating deviati- 
ons of connected segments to the desired segment number as a quality metric 
Y; introduced in Equation (5). Large deviations lead to the presented warning 
prompt and give users the possibility to relabel images. Consequently, using 
the feedback mechanism can help to increase attention w.r.t. noisy labels 
directly during annotation. Post-processing links reoccurring errors with an op- 
portunity to straightforwardly solve them. Figure 9b presents post-processing 
in form of closing intending to avoid holes in segment masks. Similar to 
label inspection, the annotator can adopt the post-processing suggestion or 
reject it avoiding unwanted changes. Therefore, post-processing enables a 
way of handling common error sources using algorithms like morphological 
operations or custom functions depending on the underlying problem. 


The key results can be summarized the following: A selector can help to reduce 
the amount of labeled data needed to achieve accurate DNN results. Pre- 
processing and pre-labeling can facilitate annotation and decrease the effort 
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needed for labeling an image. Human annotators gain more flexibility by pro- 
viding different types of input devices. Label inspection and post-processing 
build awareness of label quality and ways to deal with it. 


6 Conclusion 


Dealing with Deep Learning (DL), labeling plays an important role. We mo- 
tivated that assisting annotators during labeling is desired (reducing labeling 
effort and increasing label quality). Methods to tackle these issues are various, 
but a summary and combination of those in a general concept is lack. We 
contribute a summary of properties and challenges in datasets w.r.t. annotation. 
Besides, we propose a generic workflow combing and extending various ideas 
of labeling enhancement. Especially, an evolved concept of label inspection 
and post-processing implemented directly within the annotation process is pre- 
sented as a novel way to increase label quality. Our contribution is intended to 
serve as atemplate, which can be used by the community for practical DL pro- 
jects where a labeled dataset is required. To make this concept applicable, we 
present a software prototype implementation as an initial starting point that can 
be customized. Several functionalities are demonstrated using the prototype 
processing two biomedical image segmentation datasets. The prototype ena- 
bles further research on enhancing image annotation and investigations of new 
underlying methods like more generic feedback approaches or active learning 
in the proposed pipeline modules. For instance, the initial required amount of 
labeled data or further quantification of enhancement using an assisted labeling 
approach may be part of further research. 
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Kurzfassung 


Durch stark steigende Datenmengen und der Optimierung der Rechentechnik 
konnten in den letzten Jahren massive Fortschritte in maschinellen Lernver- 
fahren erzielt werden. In vielen Fällen ist die Datenerfassung jedoch mit einem 
großen Zeit- und Kostenaufwand verbunden. Daher wäre es von Vorteil, bereits 
aus Teilinformationen valide Schlussfolgerungen ziehen zu können. Für An- 
wendungen auf naturwissenschaftlich-technische Problemstellungen existiert 
typischerweise sehr klar definiertes Vorwissen in Form von physikalischen 
Gleichungen oder empirischen Beziehungen. Eine Synthese von theoretischem 
Vorwissen verbunden mit datenwissenschaftlichen Methoden erscheint für sol- 
che Situationen sehr vielversprechend. In diesem Beitrag wird am Beispiel 
der Zeitreihenvorhersage an einem chaotischen System gezeigt, dass durch 
die Berücksichtigung des zugrundeliegenden Differentialgleichungsystems in 
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der Verlustfunktion eines künstlichen neuronalen so genannten NARX-Netzes 
die Extrapolationsfähigkeit des Modells verbessert werden kann. Dazu wirken 
die Physik-geführten Verlustterme in Kombination mit klassischen Verlusten 
als eine Art Regularisierung. Verwendet man nur Physik-geführte Verluste ist 
es darüber hinaus möglich, neuronale Netze label-free zu trainieren. Dadurch 
entfällt die kosten- und zeitintensive Beschaffung großer Trainingsdatenmen- 
gen. 


1 Einführung 


Die Zeitreihenprognose ist ein wichtiger Bereich des maschinellen Lernens. 
Zeitreihenvorhersage bedeutet, dass zukünftige Werte einer Funktion 
auf der Basis mehrerer historischer Werte ermittelt werden. Neben den 
zurückliegenden Funktionswerten können weitere exogene Einflussgrößen 
gegeben sein, welche auf die Zeitreihenprognose einwirken. Anwendung 
findet die Zeitreihenprognose in vielen Bereichen, vom Energiesektor (z.B. 
Vorhersage des Energieverbrauchs von Mehrfamilienhäusern [1]) über die 
Hydrologie (z.B. Vorhersage des Zu- und Abflusses von Stauseen [2]) bis 
hin zur Finanzwirtschaft (z.B. Vorhersage von Devisenkursen, Aktienindexen 
oder dem Wirtschaftswachstum [3, 4]). Durch die Analyse des Verhaltens 
in der Vergangenheit und der Annahme, dass das zukünftige Verhalten 
deterministisch ist, sollen zukünftige Werte vorausgesagt werden. 


Für die Vorhersage von Zeitreihen mittels neuronaler Netze werden beispiels- 
weise sogenannte NARXnets (Nonlinear autoregressive with external input 
networks) verwendet [5, 6]. Konkret versteht man unter NARXnets rekurrente 
dynamische neuronale Netze, welche die Vorhersage der gesuchten Größe zum 
nächsten Zeitschritt f (tn) aus den vorangegangenen k Werten der exogenen 
Eingangsvariablen (/(f„-1),...,/(f„_x)) und zurückliegenden / Werten des vor- 
herzusagenden Ausgangssignals (J(ty—1),..-,J (tn-1)) berechnen. Die Vorhersa- 
ge des NARXnet wird nach der Berechnungsvorschrift 


JI (ty) =NARXnet (J (tn—1); «55 (mn) 1 (t—1)5 «+51 (tn_1)) (1) 
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bestimmt. Bei der Anwendung der NARXnets auf naturwissenschaftlich- 
technische Probleme, wie das Lösen von Differentialgleichungen, erzielen 
diese vergleichsweise gute Ergebnisse. In Hinblick auf die aufkommende 
Thematik des Theorie-gesteuerten Lernens [7] stellt sich die Frage, ob die 
Ergebnisse der NARXnets durch Erweiterung der Verlustfunktion um einen 
Physik-geführten Verlustterm (Physik-geführte NARXnets) verbessert werden 
können. 


Ziel des Theorie-gesteuerten maschinellen Lernens (auch als Physik- 
informier- tes, Physik-geführtes oder Physik-inspiriertes Lernen bezeichnet) 
ist die Schaffung einer Synthese aus den datenwissenschaftlichen und 
Physik-basierten Modellen. Dadurch wird es möglich, sowohl theoretisches 
Vorwissen über das System in Form von physikalischen Gleichungen oder 
empirischen Abhängigkeiten als auch Informationen aus Daten zu nutzen 
(siehe Abbildung 1) [8, 9]. Durch den massiven Anstieg verfügbarer Daten 
und Rechenressourcen konnten in den letzten Jahren große Fortschritte bei 
maschinellen Lernverfahren erzielt werden. Dies spiegelt sich beispielsweise 
in der Bild- [10] oder auch Spracherkennung [11] wider. Als problematisch 
bei naturwissenschaftlich-technischen Problemen stellt sich jedoch zumeist 
eine zeit- und kostenaufwändige Datenerfassung dar. Zudem besteht oft ein 
Ungleichgewicht zwischen beispielsweise sehr vielen Betriebsdaten, die 
Systemzustände nahe dem Normalzustand beschreiben, während Vorhersagen 
besonders wichtig sind für seltene außergewöhnliche Situationen mit 
starken Abweichungen, in denen letztlich extrapoliert werden muss. Ziel 
wäre es, bereits aus einer geringen Menge an Teilinformationen valide 
Schlussfolgerungen zu ziehen. Die maschinellen Lernverfahren zeigen bei 
geringen Datenmengen oftmals schlechte oder keine Konvergenz. Um diesem 
Problem entgegenzuwirken, kann theoretisches Vorwissen, welches bisher in 
ML-Verfahren nicht genutzt wird, in Form von physikalischen Gesetzen oder 
empirischen Regeln in den Lernprozess eingepflegt werden. Dadurch wird der 
Lösungsraum beschränkt und man kann bereits mit geringen Datenmengen 
gute Ergebnisse erzielen. [12] 


Für das Theorie-gesteuerte maschinelle Lernen gibt es vielfältige Ansätze: 
Der von Raissi et al. [12] vorgeschlagene Ansatz zur datengesteuerten 
Lösung und datengestützten Bestimmung der Koeffizienten in partiellen 
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Physik-geführtes 


maschinelles Lernen 


Black-Box maschinelles 
Lernen 


Niedrig Nutzung von Daten Hoch 


Nutzung von Theorie g 
Physikbasierte Modelle 


Niedrig 


Bild 1: Einordnung des Physik-geführten maschinellen Lernens im Vergleich zu rein datenwissen- 
schaftlichen Black-Box und theoretischen Physik-basierten Ansätzen. [8, 9] 


Differentialgleichungen basiert auf der Verwendung der umgestellten Diffe- 
rentialgleichung als Verlustfunktion. Indem die automatische Differenzierung 
nicht nur für das Backpropagationverfahren genutzt wird, sondern auf die 
Bestimmung der Ableitungen in der Differentialgleichung in Hinblick auf die 
Eingangsneuronen ausgedehnt wird, lassen sich die Ableitungen berechnen. 
Dieser Ansatz wurde auf weitere Probleme aus dem Bereich der Geologie 
[13], der Nanooptik [14] oder dem Stahlbau [8] übertragen. Weiterhin wurden 
erste Bibliotheken [15] für diesen Ansatz erstellt. 

Ein alternativer Ansatz ist es, die klassischen Verlustfunktionen durch Physik- 
geführte Verlustterme zu ergänzen. Dadurch verspricht man sich, die Vorteile 
der Datenwissenschaften mit Vorwissen des Systemverhaltens zu verbinden 
und somit die Vorteile beider Modellierungsformen zu kombinieren. Beispiels- 
weise kann physikalisches Vorwissen in Form von Differentialgleichungen, 
Bilanzgleichungen, Monotoniebedingungen oder auch Nichtnegativ-Werten 
in einen zusätzlichen Verlustterm einfließen. Ein solcher Ansatz wurde von 
Karpatne et al. [9] zur Vorhersage der Temperatur in Seen genutzt. Auch die 
Lösung von Eigenwertgleichungen [16] oder die Vorhersage des Schwing- 
Verhaltens von Gebäuden während bzw. nach Erdbeben [17] wurden mit 
ähnlichen Ansätzen untersucht. Eine Zeitreihenvorhersage mittels Physik- 
geführter NARXnets wurde anhand der Dynamik von thermochemischen 
Energiespeichern betrachtet [18]. 
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In den bisherigen Untersuchungen zur Kombination von theoretischem Vorwis- 
sen und den NARXnets zur Zeitreihenvorhersage wurden physikalisches Vor- 
wissen in Form von Bilanzgleichungen, Monotoniebedingungen sowie Nicht- 
negativ-Werten in die Verlustfunktion mit eingebaut [18] oder aber die Physik 
in Form einer Strukturänderung aber Beibehaltung der klassischen Verlust- 
funktion [19] dem neuronalen Netz aufgezwungen. Der hier vorgeschlagene 
Ansatz zielt darauf ab, die physikalische Konsistenz der Modelle durch Verlust- 
funktionen zu sichern, welche auf den zugrundeliegenden Differentialoperator 
des Problems zugeschnitten sind. Es zeigt sich jedoch, dass der Ansatz, die 
automatischen Differenzierung zur Berechnung der Ableitungen in den Ver- 
lustfunktionen (ähnlich der Physik-informierten neuronalen Netze [12]) zu nut- 
zen, deutlich schlechtere Ergebnisse im Vergleich zu klassischen NAR Xnets 
aufweist. Grund dafür ist vermutlich, dass die Zeit als zusätzlicher Parameter in 
den Eingangsneuronen eingespeist werden muss. Das Netzwerk wird dadurch 
so trainiert, dass die Zeit als Hauptinformationsquelle dient und die zurück- 
liegenden Funktionswerte ignoriert werden. Das NARXnet ist jedoch gerade 
darauf ausgelegt, Informationen aus den zurückliegenden Funktionswerten zu 
nutzen, um damit den nächsten Funktionswert vorherzusagen. Durch die Nut- 
zung der zurückliegenden Funktionswerte, welche in die Eingangsneuronen 
eingespeist werden, lassen sich die Ableitungen in der Verlustfunktion mit 
linksseitigen Differenzenquotienten abschätzen und somit die Differentialglei- 
chung als Verlustfunktion wählen. Untersucht wurden einmal die Kombination 
aus klassischen und Physik-geführten Verlusttermen wie auch die alleinige 
Nutzung der Physik-geführten Verlustterme. 


Die Ausarbeitung ist folgendermaßen gegliedert. In Abschnitt 2 wird der Lö- 
sungsansatz der Physik-geführten NARXnets allgemein eingeführt. Nachfol- 
gend wird dieser auf das Beispiel einer chaotische Zeitreihe (die modifizierte 
Van der Pol Gleichung) übertragen. Die Problemstellung wird in Abschnitt 3 
erläutert. Die Ergebnisse sind in Abschnitt 4 dargestellt. Abschnitt 5 fasst die 
Untersuchungen zusammen und gibt einen Ausblick auf weitergehende Frage- 
stellungen. 
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2 _ Physik-geführte NARXnets 


In den bisherigen Standard-Ansätzen der NARXnets wird als Verlustfunk- 
tion 


min Losssa, = min Lossemp, (J, Î) + Areg. LOSSreg. (©) (2) 


verwendet, die darauf abzielt, die empirischen Verluste Lossemp. (J J) der Mo- 
dellvorhersage J durch die Veränderung der Modellparameter © zu minimie- 
ren. Teilweise wird der besagte Ansatz um einen weiteren Term L0SSyeg. (©) 
ergänzt, welcher die Komplexität des Modells bestraft. Ziel ist es, dadurch die 
Überanpassung an die vorliegenden Daten zu verhindern. Durch den Parameter 
Areg. wird das relative Gewicht dieses Terms gegenüber dem empirischen Feh- 
ler eingestellt. Wie bereits in der Einführung angeschnitten, hängt die Effekti- 
vität dieses Ansatzes maßgeblich von der Größe der Trainingsdatenmenge ab. 
Weiterhin gibt es keine Garantie, dass solch ein Ansatz die zugrundeliegende 
Physik korrekt wiedergibt bzw. respektiert. [9] 


Der Ansatz der Physik-geführten NARXnets zielt auf Zeitreihenvorhersagen 
ab, bei denen die zurückliegenden Funktionswerte wie auch exogene Eingangs- 
variablen in das Netz eingespeist werden sowie das theoretische Vorwissen 
über den Prozess in Form von Differentialgleichungen oder Differentialglei- 
chungssystemen vorliegt. Das betrachtete physikalische System wird durch 
die vorherzusagende Variable J, die exogenen Eingangsvariablen / wie auch 
weitere physikalische Variablen Z mittels einer hier generisch geschriebenen 
Differentialgleichung 


PALS Z)=0 (3) 


beschrieben. [9] 

Durch die Physik-geführte Verlustfunktion soll nun gemessen werden, in wie 
weit die Vorhersage von J die Differentialgleichung erfüllt. Dazu wird gerade 
die Nichterfiillung besagter Differentialgleichung 


Losspg = ApgLoss(F (1,J,Z)) (4) 
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bestraft, wobei Apg ein Hyperparameter des Physik-geführten Verlusts darstellt 
[9]. Als Verlustmaße können etablierte Maße, wie z.B. der mittlere absolute 
(MAE) oder auch der mittlere quadratische Fehler (MSE) verwendet werden. 
Die weiteren Betrachtungen konzentrieren sich auf Differentialgleichungen mit 
zeitlichen Ableitungen. Da die Zeit nicht als Eingabe in den NARXnets dient, 
wird in diesem Beitrag vorgeschlagen, die Ableitungen in der Verlustfunkti- 
on durch linksseitige Differenzenquotienten abzuschätzen. Für alle exogenen 
Variablen wie auch die Zielvariable sind die zurückliegenden Funktionswerte 
bekannt, da diese als Eingangsgrößen in das neuronale Netz dienen. Darüber 
hinaus müssen die Zeitschrittweite Ar und die Konstanten der Differentialglei- 
chungen gegeben sein. Eine besonders robuste Formel zur Abschätzung einer 
Ableitung nach [20] ist gegeben durch 


d”J 
dr” 


ti=to 


N-1 
= Val" T(t;-+5,) mit N>m, (5) 
n=0 


wobei m der Ordnung der Ableitung, N der Anzahl der Stiitzstellen und s, den 
Stützstellen relativ zu t; entspricht. Durch die Lösung des linearen Gleichungs- 


systems 
1 1 en Som 
S1 SN l N) ôi ‚m 
. =m! ‘ (6) 
sr SS E a ÖN-1,m 
(m,N) 


können für jedes m die Koeffizienten a, ° ’ bestimmt werden, wobei Ôi, j das 
Kronecker-Delta ist [21]. 


Mit diesem Physik-geführten Ansatz lassen sich zwei Typen von Physik- 
geführ- ten NARXnets ableiten. Zum einen können die Physik-geführten 
NARXnets allein durch den Physik-geführten Verlust (Gleichung 4) trainiert 
werden. Ein solches Netz lässt sich ohne die Vorgabe der korrekten Lösung 
trainieren. Im Gegensatz zu traditionellen Ansätzen wird das Netz somit 
ausschließlich an nicht gelabelten Datensätzen ausgewertet (engl. label-free 
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learning). Weiterhin kann der Standard-Ansatz (Gleichung 2) um den Physik- 
geführten Verlustterm (Gleichung 4) ergänzt werden, um den klassischen 
datenwissenschaftlichen Ansatz mit Vorwissen zu kombinieren. 


3 Problemstellung 


In diesem Abschnitt wird die Problemstellung eingeführt, an welcher die vor- 
gestellten Ansätze getestet und mit dem Standardansatz verglichen werden. Als 
Anwendungsbeispiel wird die modifizierte Van der Pol Gleichung verwendet 
und das Rahmenwerk der Physik-geführten NARXnets auf diese Problem- 
stellung übertragen. Gerade in der modifizierten Form weist die Van der Pol 
Gleichung ein chaotisches Verhalten auf, sodass die zeitliche Entwicklung zu- 
nächst nicht prognostizierbar wirkt, obwohl die mathematische Beschreibung 
des Systems deterministisch ist. 


3.1 Van der Pol Gleichung 


Zur Beschreibung des allgemeinen Phänomens von Relaxationsschwingungen 
wurde 1926 die Van der Pol Gleichung von Balthasar van der Pol eingeführt 
[22]. Es handelt sich dabei um eine nichtlineare gewöhnliche Differentialglei- 
chung zweiter Ordnung, welche die Form 


d’x 
dt? 


e(l 2) E+r=0 (7) 


mit einem Parameter € > 0 annimmt. Fügt man einen anregenden Term hinzu, 
ergibt sich 


e(l ve +x =Acos(27ft). (8) 


Für beliebige Werte der Konstanten A und € erhält man einen Grenzzyklus 
oder quasiperiodische Lösungen, aber kein chaotisches Verhalten. Dieses tritt 
erst durch die Modifizierung der Van der Pol Gleichung auf. [23] 
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3.2 Modifizierte Van der Pol Gleichung 


Ueda et al. [24] haben für die Beschreibung des angeregten Oszillators mit 
negativen Widerstand eine modifizierte Van der Pol Gleichung 


dx 
dt? 


e(l x’) = + x? = Acos (27 ft) (9) 


formuliert, welche ein chaotisches Verhalten für bestimmte Werte der Koeffi- 
zienten A und € aufweist. Für die weitere Diskussion derselben wird die nicht- 
lineare gewöhnliche Differentialgleichung zweiter Ordnung in ein System aus 
zwei nichtlinearen gewöhnlichen Differentialgleichungen erster Ordnung 


dx 

F7 (10) 
Veā x°) yx? +Acos(27ft) (11) 
dr 


umgewandelt. Je nach Wahl der Koeffizienten A und € tritt chaotisches oder 
aber ein reguläres Verhalten auf. [23] 

In Abbildung 2 ist die numerisch berechnete Lösung (mittels explizitem 
Runge-Kutta-Verfahren der fünften Ordnung [25]) gerade für die Wahl der 
Koeffi- zienten dargestellt, sodass sich ein chaotisches Verhalten ergibt. 


Anhand dieser Zeitreihen soll die Performance der Physik-geführten im Ver- 
gleich zu den klassischen NARXnets untersucht werden. Als Datengrundlage 
dient die Zeitreihe mit den Koeffizienten A = 1 und € = 1. Diese wurde in einen 
Zeitbereich von 0 bis 100 aufgenommen. In Abbildung 2a ist die Aufteilung 
der Zeitreihe in Trainigsdaten (6000 Werte), Validierungsdaten (1000 Werte) 
und Testdaten (3000 Werte) gezeigt. 

Um neben der numerischen Lösung der Zeitreihe auch das Training mit realen 
Daten zu testen, wird die numerische Lösung verrauscht. Dazu wird auf die 
numerische Lösung weißes Rauschen nach der Formel 


Xreal =X+V-N (U =0, 0x) (12) 
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(a) Zeitliche Entwicklung: A = 1 und 
e=1 (b) Phasendiagramm: A = 1 und € = 1 


(c) Zeitliche Entwicklung: A = 1 und (d) Phasendiagramm: A = 1 und € = 
e€=0.1 0.1 


Bild 2: Modifizierte Van der Pol Gleichung. Für die Initialbedingung gilt: x(0) = 0 und y(0) = 0. 


1 
Die Frequenz wurde mit f = on gewählt. 


gelegt, wobei v die Rauschstärke und N (u =0,0,) die Normalverteilung mit 
dem Erwartungswert u = 0 und der Standardabweichung der numerisch be- 
rechneten Werte o, darstellt. 

Die Zeitreihe mit den Koeffizienten A = 1 und € = 0.1 dient als weitere Test- 
datenmenge um die Generalisierungsfähigkeit der Physik-geführten und klas- 
sischen NARXnets zu überprüfen. Für beide Zeitreihen wurden äquidistante 
Zeitschritte mit identischer Schrittweite gewählt. 
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3.3 Zeitreihenvorhersage mit neuronalen Netzen 


In dem besagten Beispiel ist es das Ziel, mit den unterschiedlichen NAR Xnet- 
Ansätzen, die Lösung der modifizierten Van der Pol Gleichung x, vorherzusa- 
gen. Die klassische NAR Xnet-Struktur 


Ry = NARXnet (Xn—1,5- -< ,Xn-k;Yn—1;---3Yn-1), (13) 


wird für das Beispiel dahingehend verändert, dass neben x, auch y, prognos- 
tiziert wird. Dadurch ist es möglich, das Differentialgleichungssystem (Glei- 
chung 10 und 11) in die Verlustfunktion einzupflegen und diese somit auf den 
zugrundeliegenden Differentialoperator zuzuschneiden (nachfolgend in Unter- 
unterabschnitt 3.3.2 erläutert). Um die Vorhersagen x, und f, zum Zeitpunkt 
tn zu bestimmen, werden den neuronalen Netzen die k-Zeitschritte zuriicklie- 
genden Funktionswerte von x und y sprich x,_ 15... ,Xn_k Und Yn—1,- - -,Yn—k als 


Eingabe vorgegeben. 


Für die drei verschiedenen Lösungsansätze (PGNARXnet, PGNARXnetlf und 
NARXnet; dargestellt in Abbildung 3) werden jeweils identische Architektu- 
ren (auch mit identischer Initialisierung der Gewichte und Schwellenwerte), 
Optimierungseinstellungen und Trainingsdaten verwendet. Das heißt, die drei 
Netze unterscheiden sich einzig und allein durch ihre Verlustfunktion. Auf die 
Verlustfunktionen wird nachfolgend eingegangen. 


3.3.1 NARXnet 


Die zu trainierenden Parameter des NARXnet (Gewichte und Schwellenwerte) 
werden durch die Minimierung der Kombination des mittleren quadratischen 
Fehlers der klassischen Verlustfunktionen der beiden Größen x und y 


LOSSNARXnet = MSExuass,ı + MSExass,2 (14) 


berechnet. Unter der klassischen Verlustfunktion werden die empirischen Ver- 
luste, also die Abweichung der Vorhersage des neuronalen Netzes von der vor- 
gegebenen Lösung, verstanden. Da gerade zwei Variablen als Ausgangsgröße 
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dienen, werden für beide Vorhersagen (X, und y,„) die klassischen Verlustter- 
me 


1 R 
MSEkiass,1 = M > (Xn = (15) 


und 


M+k 


1 x 
MSExass 2 = M y (Yn -Sn (16) 
n=k 


ausgewertet, wobei die Größen, gekennzeichnet mit Dach, die Vorhersage des 
neuronalen Netzes markieren. M gibt die Anzahl der Vorhersagen an, die im 
Fall des Trainings der Batchgröße M = MBatch entspricht. Da die Vorhersage ab 
dem k-ten Zeitschritt des Datensatzes erfolgt, wird die Summation ab diesem 
Zeitwert gestartet. Verwendet wird der mittlere quadratische Fehler, um größe- 
re Abweichungen stärker zu bestrafen. Durch die automatische Differenzierung 
wird die Verlustfunktion nach allen zu trainierenden Parametern abgeleitet. 
Mit dem Adam-Optimierer in seiner AMSGrad-Ausführung [26] werden die zu 
trainierenden Parameter mittels eines Gradientenverfahrens mit einer adaptiven 
Schrittweite verändert. 


3.3.2 PGNARXnetlf 


Ziel der Untersuchungen ist es zu überprüfen, ob die Ergebnisse der NARXnets 
durch die Wahl Physik-geführter Verlustfunktionen verbessert werden können. 
Dazu werden die beiden in Abschnitt 2 vorgeschlagenen Ansätze mit den zuvor 
gezeigten NARXnet verglichen. Zunächst soll an dieser Stelle das PGNARX- 
netlf eingeführt werden. Darunter ist ein NARXnet zu verstehen, welches allein 
durch Physik-geführte Verlustterme trainiert wird. Da keine klassischen Ver- 
lustterme bei dieser Netzart verwendet werden, wird das Netzwerk label-free 
trainiert. 
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Training des neuronalen Netzes erfolgt 
mit einer der drei Verlustfunktionen 


NARXnet 


een 


Bild 3: Veranschaulichung der neuronalen Netzstruktur mit drei verschiedenen Lösungsansätzen: 
NARXnet, PGNARXnetlf und PGNARXnet. © stellt die Parameter der neuronalen Netze 
(Gewichte und Schwellenwerte) dar, wobei ©* die optimierten Parameter angibt. o 
markiert die Aktivierungsfunktion. 


Die Verlustfunktion des PGNARXnetlf setzt sich aus zwei verschiedenen Ver- 
lusttermen zu einer kombinierten Verlustfunktion 


LOSSPGNARXnett = MSEope,1 + MSEoDE.2 (17) 


zusammen. Die Verlustfunktion wird auf das zugrundeliegende Differential- 
gleichungssystem bestehend aus zwei nichtlinearen gewöhnlichen Differenti- 
algleichungen erster Ordnung (Gleichung 10 und 11) zugeschnitten. 

Der erste Verlustterm 


Aope.ı MAK (din 2 
MSE, = 2 y, 1 
SEOoDE,1 M L Fra. (18) 
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spiegelt die erste Gleichung des Differentialgleichungssystems wider, wobei 
die Ableitung mittels linksseitigem Differenzenquotienten 


Un _ a0:Xn-k t... FAaN-2'Kn-1 + An-1 ` Ên 


dr Ar a 


abgeschätzt wird. N gibt die Anzahl der Stützstellen an. In den Differenzen- 
quotienten fließen die als Eingangsgrößen dienenden zurückliegenden Funk- 
tionswerte x,_1,...,%,—% Wie auch die bekannte Zeitschrittweite Ar ein. Die 
Vorfaktoren ao,...,an-ı werden durch die Lösung des linearen Gleichungs- 
systems (Gleichung 6) bestimmt. 

Der zweite Verlustterm 


AODE.2 5 dŷn 
M dt 


2 
MSEopE.2 = e (1—4) Jn +83 — Acos ex) (20) 


n=k 
zwingt dem neuronalen Netz die zweite Differentialgleichung des Systems und 
damit die modifizierte Van der Pol Gleichung auf. Die Ableitung wird, wie 
oben, mittels linksseitigem Differenzenquotienten 


dfn a0 'Yn-k+--- tAaNn-2'Yn-1 tAaNn-1 "In 
dr Ar 


(21) 


abgeschätzt, wobei die zurückliegenden Funktionswerte y„—1,...,Yn—-ķ Wie 
auch die Zeitschrittweite Ar verwendet werden. Darüber hinaus müssen die 
Koeffizienten A, € und f wie auch die Zeit t, bekannt sein, da diese in den 
Verlustterm integriert werden. 


Die Vorfaktoren AODE, | und Aope.2 in den Verlusttermen dienen der Gewich- 
tung, welche für das PGNAR Xnet entscheidend ist. 


3.3.3 PGNARXnet 


Neben dem PGNARXnetlf wird eine weitere Netzart eingeführt. In dem PG- 
NARXnet werden die Ansätze des NARXnet und des PGNARXnetlf kombi- 
niert. Die Verlustfunktion setzt sich aus vier Verlusttermen 


LOSSPGNARXnet = MSExtass,ı + MSExtass2 + MSEope,1 +MSEope2 (2% 
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sowohl den klassischen als auch den Physik-geführten Verlusttermen zusam- 
men. Die Gewichtung der Physik-geführten Verlustterme gegenüber den klas- 
sischen Verlusttermen kann über die Vorfaktoren AODE, | und AODE.2 eingestellt 
werden. Von dieser Art der Verlustfunktion erhofft man sich, dass die Vorteile 
beider Verlusttermarten überwiegen und somit die Performance der Netze in 
Hinblick auf die Abweichung der Vorhersage wie auch der Generalisierung 
verbessert werden. Es ist jedoch zu beachten, dass durch die Hinzunahme der 
klassischen Verlustterme das Training nicht mehr label-free erfolgen kann. 


4 Ergebnisse 


Die Architektur der neuronalen Netze wird in den Versuchen variiert. Verwen- 
det werden jeweils Netze, bestehend aus zwei verdeckten Schichten. Die An- 
zahl der Neuronen in den verdeckten Schichten Nyidden,ı und Nhidden,2 werden 
nach den etwas abgewandelten heuristischen Regeln [27, 28, 29] mit 


Nhiddenı =2-(2-d+1) und Nhidden,? = 2+ Nhidden,i (23) 


gewählt, wobei d die Embedding-Dimension [30] angibt und Nhidden,2 
zur nächsten natürlichen Zahl aufgerundet wird. Aufgrund der zwei 
Funktionswerte als Ausgabegrößen wurde die Anzahl der Neuronen in den 
Schichten verdoppelt. Die erste heuristische Regel ist auf das Kolmogorov- 
Theorem in Bezug auf die Approximation von Funktionen zurückzuführen 
[31]. Das Kolmogorov-Theorem wurde durch Hecht-Nielsen [32] abgewandelt 
und auf neuronale Netze übertragen (Kolmogorov Mapping Neural Network 
Existence Theorem). Die zweite heuristische Regel besagt, dass die Anzahl 
an Neuronen in der zweiten Schicht als Quadratwurzel des Produktes 
der Dimension der ersten versteckten Schicht und der Dimension der 
Ausgabeschicht gewählt wird [29]. Die Embedding-Dimension d wurde durch 
Bestimmung des Minimums der Mutual Information [33, 34], welches sich in 
unserem Fall bei einer Verschiebung von 7 = 85 befindet, und nachfolgender 
false nearest neighbour procedure [30] mit Hilfe des Programms von Wallot 
et al. [35] berechnet und beträgt gerade 3. Die Zeitschrittweite 7 = 85 wäre 
in Anbetracht dessen, dass der Fehler des Differenzenquotienten mit der 
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Tabelle 1: Vergleich der Güte der Vorhersage eines klassischen NARXnet für verschiedene 
Zeitschrittweiten T. Die Netze werden mit den Trainingsdaten mit einer Rauschstärke 
von V = 0.2 trainiert und die Vorhersage an den Testdaten mit einer Rauschstärke von 
v = 0 getestet. 


Zeitschrittweite T MAE der Vorhersage MAE der Vorhersage 


von x von y 
1 0.0314+0.0086 0.0288 + 0.0064 
85 0.0221+0.0121 0.0401 + 0.0148 


Zeitschrittweite ansteigt, zu groß und daraus resultiert ein großer Fehler in 
Hinblick auf die Abschätzung der Ableitungen mit dem Differenzenquotienten. 
Deswegen wurde die Entscheidung getroffen, keine zusätzliche Verschiebung 
zu verwenden. Die Vorhersage des NARXnet in Bezug auf die Variable x 
wird dadurch etwas schlechter, wohingegen der mittlere absolute Fehler der 
Vorhersage des NARXnet in Bezug auf die Variable y sogar abnimmt (siehe 
Tabelle 1). Aufgrund der Ergebnisse in der gleichen Größenordnung ist die 
Entscheidung, 7 = 1 zu wählen, legitim. 


Zum Training der Netze erfolgt eine Normalisierung der Daten auf den Bereich 
[-1,1]. Als Aktivierungsfunktion wurde die hyperbolische Tangensfunktion 
verwendet. Die Netze wurden jeweils mit fünf verschiedenen zufälligen In- 
itialisierungen trainiert. Die Ergebnisse zeigen jeweils die Mittelwerte mit den 
zugehörigen Standardabweichungen. Die Rechnungen wurden mit der Tensor- 
Flow-Bibliothek [36] und der darauf aufbauenden Keras-Bibliothek [37] aus- 
geführt. Weiterhin sollte erwähnt werden, dass keine vollständige Optimierung 
des Netzwerks durchgeführt wurde. Im Vordergrund dieser Arbeit waren be- 
sagte Lösungsansätze zu testen und miteinander bzw. mit dem Standardansatz 
zu vergleichen. Um jedoch die beste Embedding-Dimension für den Versuch zu 
finden, wurde diese in den Tests variiert (siehe Abbildung 4). Trainiert wurden 
die Netzwerke mit einer Rauschstärke v von 0.2 und der mittlere absolute 
Fehler anhand der Testdaten wie auch der Zielzeitreihe mit einer Rauschstärke 
von V = 0 bestimmt, um das Erlernen der Funktion während des Trainings zu 
überprüfen. 
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(b) Test der Extrapolationsleistung auf neue Daten: A = 1 und £ = 0.1 


Bild 4: Mittlerer absoluter Fehler der Vorhersage in Abhängigkeit der Dimension d. Die 
Rauschstärke v auf den Trainings- und Validierungsdaten betrug 0.2 und die Rauschstärke 
auf den Testdaten 0. 


Mit steigender Embedding-Dimension d = 2...4 lässt sich für das NARXnet 
und das PGNARXnet eine Abnahme des mittleren absoluten Fehlers der Vor- 
hersage feststellen. Der mittlere absolute Fehler der Vorhersage von y steigt 
für größere Embedding-Dimension sowohl für die Testdaten wie auch die Ziel- 
zeitreihe mit neuen Koeffizienten an. Hingegen lässt sich eine weitere Abnah- 
me des mittleren absoluten Fehlers für die Vorhersage von x feststellen. Das 
PGNARXnet erzielt für alle Embedding-Dimensions im Vergleich zum NARX- 
net einen geringeren Fehler. Durch die Ergänzung des Physik-geführten Ver- 
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lustterms erfolgt eine Regularisierung sowie eine Einschränkung des Lösungs- 
raums, sodass diese im Vergleich zu den klassischen NARXnets das Differen- 
tialgleichungssystem besser erlernen. Von den diskutierten Verläufen weicht 
der mittlere absolute Fehler des PGNARXnetlf ab. Vor allem bei geringen 
Embedding-Dimensions werden hier bereits sehr gute Werte erzielt. Bei der 
Bestimmung der Embedding-Dimension wird deutlich, die Extrapolationsleis- 
tung des PGNAR Xnetlf ist im Vergleich zu dem klassischen NAR Xnet-Ansatz 
wie auch dem PGNAR Xnet-Ansatz verbessert (siehe Abbildung 4b). 

Die Wahl der Embedding-Dimension d = 3 fiel aufgrund des im Mittel besten 
Ergebnis für das PGNARXnetlf in Bezug auf die Testdaten. Anhand dieses bei- 
spielhaften Netzes werden die nachfolgenden Untersuchungen durchgeführt. 


4.1 Performance der Verlustfunktionen 


Bei der Diskussion der Verlustfunktionen sind zwei verschiedene Verluste zu 
unterscheiden: Die Trainings- und Validierungsverluste. Die jeweiligen Ver- 
lustfunktionen werden bei den Trainings- und Validierungsverlusten nach jeden 
Batch ausgewertet. Nach jeder Epoche wird der Mittelwert dieser Verlustwerte 
berechnet. Die Trainings- und Validierungsverluste unterscheiden sich allein 
durch die Daten, an welchen diese berechnet werden. Anhand der Trainings- 
verluste wird das Netz optimiert. Überprüft wird der Optimierungsfortschritt 
wie auch die Verallgemeinerbarkeit der Ergebnisse durch den Validierungsfeh- 
ler. Da die prinzipielle Entwicklung der Verlustfunktionen sehr ähnlich sind, 
wobei die Trainingsverlustwerte typischerweise niedriger ausfallen, sollen an 
dieser Stelle die Entwicklung der unterschiedlichen Validierungsfehler der ver- 
schiedenen Netzarten am Beispiel der Embedding-Dimension von d = 3 und 
dem Training mit einer Rauschstärke von v = 0.2 diskutiert werden (siehe 
Abbildung 5). 


Vergleicht man die Verläufe der unterschiedlichen Netzarten PGNARXnet, 
PG- NARXnetlf und NARXnet, unterscheiden sich diese stark voneinander. 
Der Validierungsfehler der NARXnet Lossnarxnet nimmt nur minimal ab 
und erreicht bereits nach 114 Epochen sein Minimum. Im Gegensatz dazu 
verringert sich der Validierungsfehler des PGNARXnetlf LosspGNARXnetlf 
über die 15000 Epochen und erreicht innerhalb dieses Trainingsabschnitts 
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Bild 5: Vergleich der Entwicklung der unterschiedlichen Validierungsfehler der verschiedenen 
Netzarten. Dargestellt sind die Mittelwerte mit Standardabweichung der Netze mit einer 
Embedding-Dimension von d = 3 und dem Training mit einer Rauschstärke von v = 0.2. 


kein Minimum. Bedingt durch den Ausgleich der verschiedenen Verlustterme 
und die dominierenden klassischen Verluste lässt sich beim PGNARXnet 
LosspGNARXnet ein ähnliches Verhalten wie beim NARXnet feststellen. Ein 
Minimum lässt sich nach 256 Epochen beobachten. 

Anhand dieser Ergebnisse liegt die Vermutung nahe, dass die Physik-geführten 
NARXnets und dabei primär das PGNARXnetlf die zugrundeliegende 
Funktion im Vergleich zu den anderen Netzen besser erlernt. 


4.2 Vorhersage 


Die Vorhersage spiegelt das in vorigen Abschnitt angedeutete Verhalten wider. 
In Abbildung 6 ist beispielhaft die Vorhersage anhand der Zielzeitreihe mit 
im Vergleich zur Trainingszeitreihe abgeänderten Koeffizienten für die besagte 
Netzarchitektur mit einer Embedding-Dimension d = 3 gezeigt. Im Vergleich 
zum Training wurde die Rauschstärke der Zielzeitreihe auf v = 0 gesetzt. So- 
mit kann anhand der Vorhersage überprüft werden, inwiefern das zugrundelie- 
gende Differentialgleichungssystem durch das neuronale Netz erlernt wird. 


Anhand der kompletten Zeitreihe lassen sich die Unterschiede der Vorhersage 
nur schwierig abschätzen. Schaut man sich doch gerade die lokalen Minima 
und Maxima der modifizierten Van der Pol Gleichung an, stellt man fest, dass 
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Bild 6: Vergleich der Vorhersagen anhand der Zielzeitreihe mit den Koeffizienten: A = 1, € = 0.1 
und einer Rauschstärke von v = 0. Ziel ist der Test der Extrapolationsfähigkeit. 


die Vorhersage des NARXnet am stärksten von der Zielzeitreihe abweicht. 
Auch die Vorhersage des PGNARXnet weist eine vergleichsweise große Ab- 
weichung auf, wobei diese im Vergleich zur Vorhersage des NARXnet geringer 
ist. Dies resultiert aus der Ergänzung der Physik-geführten Verlustterme, wel- 
che hier als eine Art Regularisierung wirken. Mit Abstand die beste Vorher- 
sage für das gewählte Beispiel zeigt das PGNARXnetlf. Tabelle 2 fasst diese 
Beobachtungen zusammen. Das besagte Beispiel zeigt: Durch die Vorgabe der 
Differentialgleichungen des zugrundeliegenden Systems kann die Extrapolati- 
onsfähigkeit des PGNARXnetlf gegenüber dem klassischen NARXnet erhöht 
werden, da die Dynamik des Systems explizit durch die Vorgabe der zeitlichen 
Ableitungen in den Differentialgleichungen und dem Zusammenhang der Ab- 
leitung mit den zurückliegenden Funktionswerten aufgezwungen wird. 
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Tabelle 2: Vergleich der mittleren absoluten Fehler der Vorhersage von x und y. Die Netze werden 
mit den Trainingsdaten mit einer Rauschstärke von v = 0.2 trainiert und die Vorhersage 
an der Zielzeitreihe (A = 1 und € = 0.1) mit einer Rauschstärke von v = 0 getestet. 


Vorhersage vonx Vorhersage von y 


MAEPGNARXnet 0.0460 +#0.0167 0.0758 +0.0116 
MAEPGNARXneuf 0.0047 +0.0034 0.0110 0.0070 
MAENARXnet 0.0573+0.0187 0.0942 + 0.0134 


Für das identische Netzwerk wurde weiterhin die Rauschstärke v auf der Trai- 
ningszeitreihe verändert und der mittlere absolute Fehler der Vorhersage an- 
hand der Testdaten sowie der Zielzeitreihe mit veränderten Koeffizienten bei 
einer Rauschstärke von v = 0 bestimmt (siehe Abbildung 7). Bei geringen 
Rauschstärken auf den Trainings- und Validierungsdaten zeigen alle drei ver- 
schiedenen Netzarten ähnliche Ergebnisse. Mit steigender Rauschstärke nimmt 
der mittlere absolute Fehler der Vorhersage des PGNARXnet wie auch des 
NARXnet deutlich zu, wobei der mittlere absolute Fehler des NARXnet größer 
ist als der des PGNARXnet. Der mittlere absolute Fehler der Vorhersage für das 
PGNARXnetIf steigt dagegen nur leicht an bzw. bleibt annähernd konstant. 


5 Fazit 


Die Physik-geführten NARXnets weisen für analytisch bzw. numerisch 
berechnete Daten ähnliche Fehlerwerte wie die klassischen NARXnets auf. 
Der Vorteil besteht jedoch darin, dass die Konsistenz der zugrundeliegenden 
Physik durch die Physik-geführten Verlustterme gesichert wird. Erhöht man 
das Rauschen auf den Trainingsdaten, lernen die Physik-geführten NAR Xnets 
das zugrundeliegende Differentialgleichungssystem besser. Vor allem spiegelt 
sich dies bei dem Übertrag der Netze auf neue Zeitreihen mit gleichem 
Differentialgleichungssystem aber veränderten Koeffizienten wider. Die 
Extrapolationsleistung kann somit durch die Physik-geführten Verlustterme 
verbessert werden. Weiterhin ermöglichen die Physik-geführten NARXnets, 
welche durch die alleinige Nutzung der Physik-geführten Verlustterme trainiert 
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Bild 7: Mittlerer absoluter Fehler der Vorhersage in Abhängigkeit der Rauschstärke v auf den 
Trainings- und Validierungsdaten. Die Vorhersage wurde an nicht-verrauschten Daten 
getestet, um das Erlernen des Differentialgleichungssystems zu prüfen. 


werden, sogenanntes label-free learning. Außerdem wirkt der Physik-geführte 
Verlustterm bei den PGNARXnets als eine Art Regularisierung und reduziert 
zugleich das Problem der Überanpassung. 

Um die Vorhersage unter Vorgabe verrauschter Daten zu verbessern, sind 
derzeit weiterführende Arbeiten geplant. Die Idee ist, zur Optimierung 
Differenzenquotienten, welche stabil gegenüber Rauschen sind, zu verwenden 
und einhergehend dazu mehr Stützstellen für diese Differenzenquotienten 
zu berücksichtigen. Beispielsweise wäre eine Vorschlag Savitzky-Golay- 
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Differentiatoren zu nutzen, welche auf dem Savitzky-Golay-Filter [38] 


basieren. 
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1 Einleitung 


In der Energieversorgung spielen exakte Vorhersagen der Verbrauchslastgänge 
eine wesentliche Rolle fiir die optimale Planung und Steuerung des elektri- 
schen Energiesystems. Aufgrund der Digitalisierung des Elektroenergiesys- 
tems wird die Anzahl der messtechnisch erfassten Lastgänge und exogenen 
Einflussgrößen signifikant ansteigen. [1] Zur möglichst genauen Vorhersage ist 
es notwendig, Modelle zu entwickeln und zu untersuchen, die dem wachsenden 
Mengengerüst Rechnung tragen und aufgrund der signifikant höheren Anzahl 
von Beobachtungen zu möglichst verbesserten Modellen führen. Maschinelles 
Lernen ist eine Anwendung der künstlichen Intelligenz, die Systeme in die 
Lage versetzt, aus Daten selbständig zu lernen. Bei Verfahren des maschinellen 
Lernens ist ein entscheidender Faktor die Optimierung der Hyperparameter. 
Hierzu werden im Rahmen der Arbeit die beiden Verfahren Zufallssuche und 
genetische Algorithmen untersucht. Dabei zeigen die, auf den Evolutionsprin- 
zipien beruhenden genetischen Algorithmen bei der Suche nach dem globalen 
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Optimum nichtlinearer Problemstellungen vielversprechende Ergebnisse. In- 
den durchgeführten Untersuchungen werden Verfahren genetischer Algorith- 
men angewandt und mit gängigen Methoden verglichen.[2] 


2  Hyperparameter 


Künstliche neuronale Netze sind informationsverarbeitende Systeme und nut- 
zen zum Training der Netzparameter Methoden des maschinellen Lernverfah- 
rens. Jedes KNN verfügt über Hyperparameter und eine der grundlegendsten 
Aufgaben der Modelloptimierung ist es, die optimale Hyperparameterkombi- 
nation über einen definierten Suchraum zu finden. Als Hyperparameter werden 
alle Parameter bezeichnet, die sich während eines Trainingszyklus des KNN 
konstant gehalten werden. Hierzu zählen bspw. die Anzahl der Schichten, die 
Anzahl der Knoten je Schicht oder auch die verwendeten Aktivierungsfunktio- 
nen. Besonders in den immer komplexer werdenden KNN-Architekturen ist die 
richtige Auswahl der Hyperparameter von entscheidender Bedeutung. So lässt 
sich mit einer effektiven Hyperparameteroptimierung der notwendige Rechen- 
aufwand zum Trainieren des KNN verringern bei gleichzeitiger Steigerung der 
Performance der Modelle. [2, 3] 

Die Frage, wie die verfügbaren Rechenkapazitäten effizient eingesetzt und die 
Suchräume effektive bearbeitet werden können, führte zu einer Vielzahl von 
Methoden der Hyperparameteroptimierung. Eine automatisierte Hyperparame- 
teroptimierung bietet dabei mehrere Vorteile. Hyperparameterräume sind häu- 
fig komplex, bestehend aus einer Vielzahl von kontinuierlichen, diskreten und 
kategorischen Hyperparametern und werden deshalb häufig nur abgeschätzt 
oder heuristisch ermittelt. Dadurch besteht das Risiko, dass die Hyperpara- 
meter nicht vollständig optimiert sind und sich in einem lokalen Minimum 
befinden. Ebenso sind die Wechselwirkungen der Hyperparameter zumeist un- 
bekannt. Durch die algorithmische Ermittlung der Hyperparameter können Un- 
sicherheiten und Eingriffe des menschlichen Beobachters reduziert werden. 
In der Vergangenheit haben sich eine Vielzahl automatisierter Methoden zu 
Hyperparameteroptimierung entwickelt. [4, 5] 
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3 Untersuchte Optimierungsansätze 


Die nachfolgenden Problemherleitung der Hyperparameteroptimierung orien- 
tiert sich an [6, 7]. Mit X < Rd als Eingaberaum und Y C Rd als Ausgaberaum 
ergibt sich als Ziel des überwachten Lernens eine Funktion h mit h(x;0):X > 
Y, wobei x € X gilt und haus einer Schar von Funktionen parametrisiert mit 0 € 
R? kommt. Im Folgenden wird 0 als die Bezeichnung für die Hyperparameter 
verwendet. Unter Hinzunahme einer Verlustfunktion 


I (h(x;0);y) (1) 
kann eine Risikofunktion 
R(0) = Eyy [I (h(x; @)sy)] (2) 


für ein gegebenes © als der zu erwartende Fehler über die zugrunde liegende 
Wahrscheinlichkeitsverteilung P (x,y) definiert werden. Mit Hilfe einer Anzahl 
u der möglichen künstlichen neuronalen Netze und den jeweils zugehörigen 
Lösungen {0 j kai ergibt sich ein Minimierungsproblem der Funktion 


1# au 
PER ITOPER, (Eren) l 6) 


u j=l 


welche den erwarteten durchschnittlichen empirischen Fehlers angibt. 


3.1 Rastersuche 


Die Rastersuche versucht dieses Minimierungsproblem zu lésen, indem jedem 
Hyperparameter eine Auswahl diskreter Werte, oder Vielfache dieser Werte, 
vorgegeben wird und der Algorithmus evaluiert das kartesische Produkt die- 
ser Menge. Zur Rastersuche werden ebenso heuristische Verfahren gezählt, 
wie etwa die Auswahl der Hyperparameter nach Erfahrungswerten. Bei h Hy- 
perparametern mit n Werten wächst die Anzahl der sequenziell verarbeiteten 
Trainings- und Bewertungsversuche mit h”. 
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Bild 1: Darstellung der Suchraumabdeckung bei Anwendung der Rastersuche mit zwei Hyperpa- 
rametern 


Die Rastersuche ist deshalb nur fiir Anwendungen rentabel mit drei oder we- 
niger Hyperparametern, hat jedoch den Vorteil einer gleichverteilten Suchrau- 
mabdeckung (siehe Abbildung 1). [3, 5] 


3.2 Zufallssuche 


Eine Erweiterung bilden zufallsbasierte Methoden der Hyperparameteropti- 
mierung. Die Zufallssuche entspricht dem Vorgehen einer Monte-Carlo Simu- 
lation. [8] Im diskreten Hyperparameterraum werden mittels einer Randvertei- 
lung zufällige Hyperparameterkombinationen ausgewählt (siehe Abbildung 2). 
Im Gegensatz zur Rastersuche wird bei der Zufallssuche eine definierte An- 
zahl von Parameterkombinationen aus der spezifizierten Verteilung gezogen, 
was die Wahrscheinlichkeit verringert, viel Berechnungszeit in einem niedrig 
performanten Bereich des Hyperparameterraums aufzuwenden. [3] In einer 
unlimitierten Suche entspricht der Suchraum der Zufallssuche einer vollstän- 
digen Rastersuche, da jede Hyperparameterkombination mindestens einmal 
vorkommt und konvergiert damit automatisch zum globalen Optimum. In der 
Praxis bestehen allerdings limitierenden Faktoren wie die Rechenkapazität und 
-zeit, woraus der Vorteil der Zufallssuche resultiert. Bei nicht gleichverteil- 
ten Hyperparametern ermöglicht die Zufallssuche eine bessere Suchraumab- 
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Bild 2: Darstellung der Suchraumabdeckung bei Anwendung der Zufallssuche mit zwei Hyperpa- 
rametern 


deckung als vergleichbare Optimierungsmethoden und steigert so die Wahr- 
scheinlichkeit über die Optimierungszeit das globale Optimum zu finden. Als 
Nachteil ist zu nennen, dass die Zufallssuche ebenso wie die Rastersuche eine 
gewisse Anzahl unnötiger Evaluierungen durchführt, da performante Bereiche 
des Hyperparameterraumes nicht tiefergehend untersucht werden. [4, 5] 


3.3 Genetischer Algorithmus 


Die Konzeption und Struktur des in dieser Arbeit verwendeten genetischen 
Algorithmus orientiert sich an [7]. Für eine tiefergehende Analyse des Aufbaus 
verschiedener genetischer Algorithmen wird der interessierte Leser auf [3], [6] 
und [9] verwiesen. Die zentralen Themenfelder der Hyperparameteroptimie- 
rung sind eine möglichst große Suchabdeckung im Hyperparameterraum so- 
wie die tiefergehende Untersuchung erschlossener lokaler Optima. Als Neben- 
bedingung sind die Optimierungszeit und Rechenkapazität aufzuführen. Die 
Zufallssuche, als Weiterentwicklung der Rastersuche, löst zwar das Problem 
der Suchraumabdeckung, bietet aber keine Möglichkeit regelnder Maßnahmen 
während der Optimierung. 
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Bild 3: Mutation durch Entstehung eines neuen Neurons [10] 


Der genetische Algorithmus löst diesen Zielkonflikt der Hyperparameteropti- 
mierung, indem eine absteigende Einstufung der Verlustfunktionen 


(0:4) <1 (Oxy) <... <1 (Opp) - (4) 


über die zufällig geschaffene Population ‘Py, = { 61, kra Ou} mit O., als die 
k-besten Individuen und der Anzahl der Individuen u erstellt wird. 


Für ein Individuum ergeben sich alle Möglichkeiten an Hyperparametern in- 
nerhalb des Suchraumes 


h RS, ; 
a E (5) 


or she CH 


dargestellt als Matrix, wobei o! den h-ten Hyperparameter des u-ten Individu- 
um bezeichnet. Für die weiteren Berechnungen wird zur Vereinfachung wei- 
terhin \P als die Menge über die Population definiert. Zur Minimierung von J, 
verwendet der genetische Algorithmus Mutation, Selektion und Kreuzung. Die 
Mutation beschreibt die Wahrscheinlichkeit, dass ein Hyperparameter zufällig 
innerhalb seines Suchraumes verändert wird, siehe Abbildung 3. 


Formal kann die Mutation durch die Vereinigung zweier Untermengen, der 
Menge der zufällig geschaffenen Ausgangspopulation 


Yu neu E Y mu:u,alt U Pimp mutiert (6) 


beschrieben werden, wobei m die Mutationsrate, Ymyu:u,alt 
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Bild 4: Die Kreuzung zweier Eltern zu einem Ableger [10] 


den nicht-mutierten und Pau mutierr den mutierten Anteil der zufälligen Aus- 
gangspopulation markiert. Jedoch ist zu beachten, dass die Mächtigkeit der 
Populationsmenge 


Ne = F muua] zu een (7) 


erhalten bleibt.[7] 


Als Selektion wird die Auswahl der ersten k-besten Individuen aus der Abfolge 
der Verlustfunktionen bezeichnet. Die Kreuzung stellt die Vermehrung von 
Genen innerhalb der Population dar. Aus jedem ausgewählten Individuenpaar 
werden zwei Nachfolger mittels der zufälligen Rekombinationsrate r erstellt. 
Abbildung 4 stellt die Kreuzung beispielhaft für zwei Eltern und einen Ableger 
dar. Für den genetischen Algorithmus ist es wichtig, dass die Gene vollständig 
und komplementär an die Ableger abgegeben werden, d.h. es gilt: 


h ee rh:h rh 
fe aia By Le + Kur (8) 
sowie 
h 2 rh:h rh 
sia ee + ee i (9) 
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Bild 5: Darstellung der Suchraumabdeckung und Entwicklung der Hyperparametersuche über drei 
Generation mit genetischem Algorithmus fiir zwei Hyperparameter 


Eine systematische Darstellung der Suchraumabdeckung und die Entwicklung 
der Hyperparameter tiber drei Generationen hinweg ist in Abbildung 5 ex- 
emplarisch dargestellt. Ziel des genetischen Algorithmus ist es, mittels der 
oben genannten evolutionären Techniken die Vorteile einer Zufallssuche zu er- 
halten, aber die Hyperparameteroptimierung dahingehend zu verbessern, dass 
die vorhandene Rechenkapazität auf vielversprechende Teil- oder Unterräume 
konzentriert wird. [7] 


4 Modellierung 


4.1 Datengrundlage 


Die Datengrundlage für die durchgeführten Untersuchungen umfasst plausi- 
ble und vollständige Energiezeitreihendaten im Umfang von drei Kalenderjah- 
ren mit einer Abtastzeit von 15 Minuten. Für die Energielastprognose ist es 
wichtig die Zusammenhänge zwischen verschiedenen Messgrößen als Muster 
zu identifizieren, weshalb die Untersuchung sowohl univariat als auch mul- 
tivariat durchgeführt wurde. Für die multivariate Untersuchung standen zu- 
sätzlich die Zeitreihendaten für die Lufttemperatur, der Windgeschwindigkeit 
und der Solareinstrahlung zur Verfügung, ebenfalls mit einer Auflösung von 
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Bild 6: Auszugsweise Darstellung der Energielastzeitreihe iiber einen Zeitbereich von sieben 
Tagen 


15-Minuten-Mittelwerten. Die Energielastzeitreihe ist auszugsweise in Abbil- 
dung 6 dargestellt. Deutlich zu sehen ist der Wochen- und Tageszyklus, wobei 
672 Messpunkte einer Woche und 96 einem Tag entsprechen. Der verwendete 
Datenbestand wurde fiir das Anlernen der KNN-Modelle in Trainings- und Va- 
lidierungsdaten aufgeteilt. Der Trainings- und Validierungsdatensatz umfasst 
die ersten beiden Kalenderjahre. Der anschließende Test der Prognosemodelle 
wird mit dem dritten Kalenderjahr durchgefiihrt. 


4.2 Modellansatz 


Als Modellansatz für die Prognosemodelle werden künstliche neuronale Netze 
mit den Architekturen Multi-Layer-Perceptron (MLP) und Temporal Convolu- 
tional Netzwork (TCN) verwendet. 

In der MLP-Architektur bilden die künstlichen Neuronen die funktionellen 
Grundeinheiten. Sie sind in mehreren Schichten angeordnet und miteinander 
verbunden (siehe Abbildung 7). Die Schichten unterteilen sich in die Eingangs- 
schicht, verdeckte Schicht und Ausgangsschicht. Die Neuronen einer Schicht 
sind mit den Neuronen der vorherigen und der nachfolgenden Schicht verbun- 
den. Den Verbindungen zwischen den Neuronen werden Gewichte zugeordnet, 
welche die Relevanz einer Verbindung kennzeichnen. Die angelegten Signale 
der Eingabeschicht werden an die direkt verbundenen Knoten weitergegeben. 
In den Knoten werden die Gewichte aufsummiert, an eine Aktivierungsfunk- 
tion übergeben und der Ausgabewert berechnet. Die Informationsverarbeitung 
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Bild 7: Aufbau eines künstlichen neuronalen Netzes in Anlehnung an [11] 


erfolgt somit in den verdeckten Schichten von der Eingangs- zur Ausgangs- 
schicht. Dabei sind die Anzahl der verdeckten Schichten, die Anzahl der ent- 
haltenen Neuronen und die verwendete Aktivierungsfunktion frei zu wählende 
Hyperparameter bei der Konfiguration des KNN. [2] 


Bei der TCN-Architektur hingegen wird die Eingabesequenz nicht aufsum- 
miert, sondern mittels Faltungsoperationen verarbeitet. Der grundlegende Un- 
terschied zwischen MLPs und TCNs ist, dass ein TCN nicht mehr nur aus 
Neuronen, sondern aus residualen Blöcken (RB) besteht. Diese Blöcke weisen 
eine eigene Netzstruktur auf, in der die Eingangssequenz zuerst eine Faltung 
(Dilated Causal Conv) durchläuft. Nach der Faltung erfolgt eine Gewichts- 
normalisierung, darauffolgend die Verarbeitung über die Aktivierungsfunktion 
und zuletzt eine Regularisierung über das Dropout Verfahren. Die Gewichts- 
normalisierung dient zur Rechenzeitbeschleunigung sowie dazu, explodierende 
Werte zu verhindern. Da sich die Struktur der Neuronen eines TCN von denen 
eines MLP unterscheiden, wird auch von Filtern gesprochen. Zur Bildung eines 
TCNs werden die residualen Blöcke aufeinandergestapelt. In Abbildung 8 ist 
der Aufbau eines zweischichtigen residualen Blocks zu sehen. Sollte die Ein- 
gabesequenz eine Länge unterschiedlich von der Ausgabe der Faltung haben, 
wird optional auf die Eingabesequenz eine 1x1 Faltung angewendet, die diese 
Differenz aufhebt. Durch die Faltung der Eingangsdaten können eine große 
Anzahl an Vergangenheitswerten berücksichtigt werden, wodurch sich TCNs 
besonders zur Zeitreihenprognose eignen. [12] 
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Bild 8: Aufbau eines residualen Blocks eines Temporal Convolutional Netzwork in Anlehnung an 
[12] 


Für das Trainieren der beiden KNN-Modelle, also dem Ändern der gewich- 
teten Verbindungen, wird der Backpropagation-Algorithmus als Lernverfahren 
verwendet. Dabei erfolgt die Korrektur der Netzgewichte mittels Gradientenab- 
stiegsverfahren zur Fehlerminimierung. Für tiefergehende Erläuterungen wird 
auf [11] und [13] verwiesen. 


Für die Lösung des Minimierungsproblems der Hyperparameteroptimierung 
wird in den nachfolgenden Untersuchungen der entworfene genetische Algo- 
rithmus und die Zufallssuche verwendet. Der genetische Algorithmus verwen- 
det eine Anfangspopulation an Modellen und optimiert diese mittels Mutation, 
Selektion und Kreuzung. 


Für alle Untersuchungsszenarien wird ein Day-Ahead Prognosehorizont fest- 
gelegt, was einer 36-Stunden-Prognose entspricht (siehe Abbildung 9). 
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Bild 9: Prognosehorizont für die Untersuchungen 


4.3 Hyperparameteroptimierung 


Im Rahmen dieses Beitrags werden die Zufallssuche und ein genetischer Al- 
gorithmus über den gleichen Hyperparameterraum sowohl für eine univariate 
als auch eine multivariate Zeitreihenvorhersage verglichen. Als eingesetztes 
Framework dient Tensorflow [14], wobei die Zufallssuche mittels der Erwei- 
terung Talos [15] durchgeführt wurde. Der Ablauf des genetischen Algorith- 
mus ist in Abbildung 10 dargestellt. Eine zufällig generierte Startpopulation 
wird fünf Epochen trainiert, um in der Evaluierungsphase eine absteigende 
Auflistung der Tauglichkeit der Individuen zu erstellen. Von der Startpopu- 
lation werden die besten k = 15 % der Individuen selektiert. Um der Tatsache 
Rechnung zu tragen, dass weniger taugliche Modelle eventuell durch gering- 
fügige Mutationen deutlich bessere Ergebnisse erzielen können und damit in 
der Rangfolge aufsteigen, wird eine Überlebensrate von 10 % eingesetzt. Die- 
se gibt die Wahrscheinlichkeit an, dass ein eigentlich ausselektiertes Modell 
weiterverwendet wird. Nach der Selektion besteht die Population aus den 15 
% besten Individuen und 10 % zufällig ausgewählten. Die Hyperparameter 
der zufällig ausgewählten Individuen werden mit der Mutationsrate m = 30 
% zufällig verändert. Zur Erhaltung und Entwicklung der Population werden 
die besten Individuen zufällig gekreuzt, um Ableger zu rekombinieren. Jeweils 
zwei Individuen erstellen durch zufällige Rekombination zwei weitere Able- 
ger, wobei der zweite Ableger die Hyperparameter komplementär zum ersten 
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Bild 10: Schematischer Ablauf des genetischen Algorithmus mit Evolutionsstufen [16] 


erhält. Die Hyperparameter beider Ableger werden ebenfalls mit m = 30 % 
mutiert. Ein Durchlaufen dieser Schleife wird eine Generation genannt. Der 
genetische Algorithmus beendet die Hyperparameteroptimierung automatisch 
nach acht Generationen. 


Für eine Speicherplatzoptimierung und Rechenbeschleunigung wird für die 
Speicherung der Individuen der Genotyp, für die Darstellung der Phänotyp 
verwendet. Der Genotyp ist die Gesamtheit der Gene eines Individuums bzw. 
dessen Erbanlagen, der Phänotyp beschreibt die sichtbaren Eigenschaften. Der 
Genotyp ist eine Liste, Genom genannt, mit allen Hyperparametern und deren 
Ausprägung eines Individuums. Dies senkt die Zugriffzeiten, da Selektion, 
Mutation und Kreuzung nicht in der für Tensorflow typischen als Graph darge- 
stellten Netzarchitektur durchgeführt werden müssen. Der Phänotyp entspricht 
den als final Netzarchitektur dargestellten Hyperparametern, exemplarisch in 
Abbildung 10 dargestellt. [5, 17] 


5  Simulative Untersuchung und Evaluierung 


Die in Abschnitt 4 dargestellten und konzipierten Modelle mit den 
jeweiligen KNN-Architekturen wurden in umfangreichen simulativen 
Untersuchungen mit den dargestellten Hyperparameteroptimierungsmethoden 
(vgl. Abschnitt 3) bezüglich der Prognosequalität und der benötigten 
Rechenzeit miteinander verglichen. Für die Konfiguration des genetischen 
Algorithmus wurden folgende Einstellungen gewählt: 
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- Anzahl der Generationen G=8 
- Größe der Populationen u = 30 
- Überlebensrate s = 0, 1 

- Selektionsrate k = 0,15 

- Mutationsrate m = 0,3 


Zur Sicherstellung der Vergleichbarkeit der Optimierungsergebnisse wird der 
Umfang bei der Zufallssuche auf 350 Stichproben festgesetzt. 


Zur Bewertung der Modellgüte während der Zufallssuche sowie zur abstei- 
genden Sortierung während des genetischen Algorithmus werden alle Modelle 
fünf Epochen trainiert. 


Für die Bewertung werden die Optimierungszeit und die Prognosequalität her- 
angezogen. Die dargestellten Fehlermaße sind der RMSE (Wurzel der mittleren 
Fehlerquadratsumme), MAPE (mittlerer absoluter prozentualer Fehler) und der 
ME (mittlere Fehler). Zur Erhöhung der Nachvollziehbarkeit erfolgt die Dar- 
stellung der Ergebnisse gegliedert nach der verwendeten Netzarchitektur. 


MLPs verfügen als einfache vollverschaltete Netzarchitekturen über keine 
komplexen inneren Funktionen, wie rekursive Verbindungen oder Regulari- 
sierung. Daraus resultiert eine vereinfachte Hyperparameteroptimierung für 
die Zufallssuche. Hingegen ist die Netzarchitektur von TCNs aus Stapeln 
von residualen Blöcken aufgebaut. Folglich erhöht sich die Komplexität und 
Wechselwirkung der Hyperparameterauswahl. Dementsprechend wird die 
Performance des genetischen Algorithmus an dem einfachen Beispiel der 
MLP-Architektur getestet und anschließend auf das komplexere Problem der 
TCN-Architekturen ausgeweitet. [7, 12] 
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Bild 11: Vergleich der Prognosen der optimierten MLP-Netze anhand eines Ausschnitts der 
Energiezeitreihe von vier Tagen 


5.1 MLP-Architektur 


Die Hyperparameter © werden zur Minimierung der Prognosegiite der Vorher- 
sage mittels MLP-Architektur innerhalb des Suchraums 


Verdeckte Schichten € [1,...,5] 
Neuronen € [1,...,500] 
Aktivierungsfunktionen € [relu, elu,tanh, selu, sigmoid] 


Optimierer € [rmsprop,adam, sgd ,adadelta| 


variiert, wobei der Suchraum für die verschiedenen Hyperparameteropti- 
mierungsalgorithmen, Zufallssuche und genetischer Algorithmus, identisch 
gewählt wird. 


In Abbildung 11 sind die Prognosen beispielhaft an jeweils einem der opti- 
mierten MLP-Netze dargestellt. Die Vorhersagen stimmen zumeist gut mit der 
Zielzeitreihe überein. Abweichungen der Zeitreihenprognose werden vor allem 
an den lokalen Minima und Maxima der Energiezeitreihe deutlich. 


Zur Abschätzung der Performance der Algorithmen der Hyperparameteropti- 
mierung sind in Tabelle 1 die Prognosegüte anhand verschiedener Fehlermaße 
sowie die Berechnungszeit aufgetragen. Dabei ist der Durchschnittswert von 
drei verschiedenen Optimierungsdurchläufen aufgeführt. 
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Tabelle 1: Mittelwerte der Ergebnisse der unterschiedlichen Hyperparameteroptimierungen für 
die MLP-Netze 


Univariat Multivariat 
gen. gen. 
Methode Zufallssuche Algorithmus Zufallssuche Algorithmus 
RMSE 0,307 0,304 0,3285 0,327 
MAPE 3,71 3,69 4,005 3,96 
ME —0,038 —0,033 —0,047 —0,053 
Zeit (mm:ss) 45 : 06 33 : 03 56:35 52:02 


Vergleicht man die unterschiedlichen Fehlermaße zunächst für die univariate 
Zeitreihenprognose, stellt man fest, dass die Fehlerwerte in der gleichen Grö- 
Benordnung liegen. Dies spricht dafür, dass die beiden Optimierungsmethoden 
die Umgebung des Minimums des Gütegebirges finden. Es fällt dabei jedoch 
auf, dass die Vorhersagen der Netze optimiert mit dem genetischen Algorith- 
mus jeweils Verbesserungen zeigen. Der Vorteil der genetischen Algorithmen 
wird beim Vergleich der benötigten Rechenzeit deutlich. Durch die Verwen- 
dung genetischer Algorithmen konnte die Optimierungszeit bei besserer Pro- 
gnosegüte um mehr als 25 % reduziert werden. 


Die Optimierungsergebnisse der multivariaten Zeitreihenvorhersage zeigen ein 
vergleichbares Verhalten. Auch hier sind die Absolutwerte der Fehlermaße 
RMSE und MAPE für den verwendeten genetischen Algorithmus im Vergleich 
zur Zufallssuche geringer. Der Absolutwert des mittleren Fehlers ME ist für 
die Vorhersage des Netzes optimiert mit dem genetisches Algorithmus mini- 
mal größer. Die Zeitersparnis durch Verwendung des genetischen Algorithmus 
beläuft sich auf ca. 8 %. 


Bereits bei der Hyperparameteroptimierung der MLP-Architektur wird deut- 
lich: Beide Algorithmen finden die Umgebung des Minimums der Hyperpara- 
meter, jedoch scheint der genetische Algorithmus im Vergleich zur Zufallssu- 
che näher am Minimum zu liegen bzw. stabil zu konvergieren. 
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5.2 TCN-Architektur 


Die Hyperparameter © werden zur Minimierung der Prognosegüte der Vorher- 
sage im folgenden Suchraum 


Filteranzahl € [1,...,256] 

Filtergröße € [1,..., 16] 

Anzahl der Stapel € [1,...,5] 

Dilatation € [[1,2], [1,2,4],[1,2,4,8],[1,2,4,8, 16]] 
Aktivierungsfunktionen € [relu, elu,tanh, selu, sigmoid] 


Optimierer € [rmsprop, adam, sgd ,adadelta| 


verändert. Für die beiden Hyperparameteroptimierungsalgorithmen Zufallssu- 
che und genetischer Algorithmus, wird auch für den Fall der TCN-Architektur 
der Suchraum konstant gehalten. 


Zum Vergleich der Prognosen der unterschiedlich optimierten Netze sind die 
Vorhersagen beispielhaft an einem trainierten Netz in Abbildung 12 dargestellt. 
Unterschiede und Abweichungen der Vorhersagen untereinander stellt man vor 
allem an den lokalen Maxima und Minima der Energiezeitreihe fest. 


Die Qualität der Algorithmen der Hyperparameteroptimierung kann durch die 
verschiedenen Fehlermaße der Prognosegüte sowie die Berechnungszeit auf- 
getragen in Tabelle 2 abgeschätzt werden. Wie schon für die MLP-Architektur 
sind die Durchschnittswerte von drei unterschiedlichen Optimierungsdurchläu- 
fen angegeben. 


Sowohl bei der univariaten als auch bei der multivariaten Zeitreihenprogno- 
se stellt man vergleichbare Abhängigkeiten fest. Die Fehlermaße RMSE und 
MAPE der Prognose liegen für die Netze optimiert nach der Zufallssuche wie 
auch nach dem genetischen Algorithmus in einer gleichen Größenordnung, 
wobei die Fehlerwerte jeweils für die Netze optimiert nach dem genetischen 
Algorithmus geringer sind. Zunächst scheint der ME ein konträres Bild zu 
vermitteln. Die Absolutwerte der Fehlermaße der Netze optimiert nach der 
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Auszug aus dem Prognosevergleich für das TCN 
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Bild 12: Vergleich der Prognosen der optimierten TCN-Netze anhand eines Ausschnitts der 
Energiezeitreihe von vier Tagen 


Zufallssuche sind hier geringer. Dies lässt sich jedoch durch den Aufbau des 
Fehlermaß ME erklären. Anstatt die absoluten Abweichungen bzw. die qua- 
drierten Werte zu mitteln, werden beim ME die Fehler vorzeichenbehaftet 
gemittelt. Dadurch können sich negative sowie positive Fehlerwerte ausglei- 
chen. Folglich können rauschbehaftete Vorhersagen einen geringeren mittleren 
Fehler im Vergleich zu Vorhersagen mit einem Offset aufweisen. Gerade der 
Ausschnitt der Zeitreihe (siehe Abbildung 12) zeigt, dass die univariate Zeitrei- 
henvorhersage optimiert nach dem genetischen Algorithmus die Zielzeitreihe 
überschätzt (TCN univariat GA). Durch den Offset entsteht ein vergleichsweise 
großer mittlerer Fehler. Gleiches gilt für die multivariate Zeitreihenvorhersage 
optimiert nach dem genetischen Algorithmus (TCN multivariat GA). Hinge- 
gen weisen die Prognosen mit der Optimierung nach der Zufallssuche keinen 
klaren Offset auf. Man kann eine Überschätzung und auch Unterschätzung der 
Zielzeitreihe feststellen, sodass der mittlere Fehler im Vergleich geringer ist. 


Neben der Prognosegüte spielt auch die benötigte Rechenzeit der Hyperpara- 
meteroptimierung eine entscheidende Rolle. Durch die Verwendung des gene- 
tischen Algorithmus kann die Optimierungszeit bei der univariaten Zeitreihen- 
prognose um ca. 25 % und bei der multivariaten Zeitreihenprognose um mehr 
als 55 % reduziert werden. 


Auch anhand der TCN-Architektur konnte damit gezeigt werden: Durch die 
Verwendung eines genetischen Algorithmus zur Zeitreihenvorhersage kann die 
Prognosegüte in Bezug auf RMSE und MAPE bei gleichzeitiger signifikanter 
Reduktion der Optimierungszeit erhöht werden. 
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Tabelle 2: Mittelwerte der Ergebnisse der unterschiedlichen Hyperparameteroptimierungen für 
die TCN-Netze 


Univariat Multivariat 
gen. gen. 
Methode Zufallssuche Algorithmus Zufallssuche Algorithmus 
RMSE 0,464 0,443 0,497 0,493 
MAPE 5,8 5,3 5,83 5,56 
ME —0,16 0,22 —0,056 0,195 
Zeit (mm:ss) 2196 : 36 1647: 11 2124: 42 948 : 36 


6 Zusammenfassung und Ausblick 


Beim Entwickeln und Trainieren von Prognosemodellen basierend auf KNN ist 
ein entscheidender Faktor die Optimierung der Hyperparameter um leistungs- 
fähige und präzise Modelle zu generieren. Bestehende automatisierte Verfah- 
ren zur Hyperparameteroptimierung verwenden zeitaufwändige Raster- oder 
Zufallssuchen. Speziell bei der Zufallssuche besteht das Risiko lediglich des 
Auffindens eines lokalen Extrempunktes. Demgegenüber wird bei der Raster- 
suche zwar der Suchraum größtmöglich abgedeckt, jedoch überschreitet die 
Optimierungszeit schnell ein akzeptables Maß bei einer steigenden Anzahl 
an Hyperparametern. Der in diesem Beitrag durchgeführte Vergleich der Me- 
thoden zur Hyperparameteroptimierung für KNN zur Energielastprognose hat 
gezeigt, dass durch die Verwendung von genetischen Algorithmen die Progno- 
següte bei gleichzeitiger Reduzierung der Optimierungszeit gesteigert wird. 
Durch die Verwendung von Evolutionsprinzipien zur Optimierung der Hyper- 
parameter erfolgt durch den Algorithmus eine Entwicklung in der Suchrau- 
mabdeckung über die Generationen hinweg, hin zu performanten Bereichen im 
Suchraum, ohne dabei die Vorteile der Zufallssuche zu verwerfen. In der darge- 
stellten Anwendung der Energielastprognose trägt der genetische Algorithmus 
dazu bei, die bestmögliche Architektur bzw. Hyperparameterauswahl weitest- 
gehend autonom zu ermitteln und somit die Modelle schneller, effektiver und 
effizienter zu trainieren. Damit kann dieses Verfahren einen wichtigen Beitrag 
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leisten hinsichtlich der Reproduzierbar-/ Vergleichbarkeit von Modellen und 
wissenschaftlichen Untersuchungen. Modellansätze basierend auf KNN kön- 
nen nur adäquat miteinander verglichen werden, wenn diese ein gleiches Maß 
an Feinabstimmung erhalten. Eine stabile, schnelle und zuverlässige Methode 
zur automatisierten Hyperparametereinstellung würde also nicht nur die Opti- 
mierung erleichtern und die Performance der Modelle steigern, sondern könnte 
auch durch eine einfachere Handhabbarkeit zur weiteren Verbreitung solcher 
Anwendungen führen. 


Anknüpfungspunkte an die vorliegende Forschungsarbeit bestehen in der Aus- 
weitung der Untersuchung auf weitere und größere Netzarchitekturen wie z.B. 
Ensemble Learning Verfahren und die Anwendung auf komplexere Aufga- 
benstellungen mit einer größeren Anzahl exogener Einflüsse. Eine Weiterent- 
wicklung des genetischen Algorithmus könnte daraus bestehen, die trainierte 
und sortierte Anfangspopulation in Spezies zu unterteilen. Eine Spezie ver- 
eint dabei Individuen mit ähnlichen genetischen Eigenschaften und ähnlichen 
Verlustwerten. So könnte verhindert werden, dass performante Individuen die 
Population dominieren und gleichzeitig erhalten weniger performante eine län- 
gere Entwicklungszeit, da sie nur mit genetisch und leistungsfähig ähnlichen 
Individuen verglichen werden. 
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Kurzfassung 


Die Qualitätssicherung stellt einen wesentlichen Bestandteil der Produktent- 
wicklung und Produktion dar, bei der die Potenziale der Daten aus IoT-Geräten 
bislang wenig Beachtung finden. IoT-Geräte ermöglichen eine Erfassung der 
tatsächlichen Gerätenutzung sowie auftretender Fehlerfälle, die in Summe 
als IoT-Gerätenutzungsdaten bezeichnet werden können. In diesem Beitrag 
wird ein Konzept und die Evaluation eines KI-basierten Assistenzsystems 
zur verbesserten Qualitätssicherung basierend auf IoT-Gerätenutzungsdaten 
vorgestellt. Das Konzept vereint eine kontinuierliche Fehlerüberwachung 
mittels deskriptiver Datenanalysen, eine automatisierte Modellbildung zum 
Erlernen von Zusammenhängen zwischen Gerätenutzung und auftretenden 
Fehlern mittels AutoML, und die Modellinterpretation mittels Shapley-Werten 
zur Bereitstellung hypothetischer Ursachen. Die Evaluation des Konzepts 
erfolgt anhand realer IoT-Gerätenutzungsdaten von über 40 Tsd. vernetzten 
Waschmaschinen. Als Ergebnis der Evaluation konnte eine zuvor unbekannte 
hypothetische Ursache für einen relevanten Fehlerfall auf Grundlage der 
Gerätenutzung identifiziert werden. Das Assistenzsystem unterstützt somit 
Domänenexpert:Innen des Qualitätsmanagements bei der explorativen 
Untersuchung von Kausalitäten zwischen Nutzung und Fehlern, wodurch 
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sich Verbesserungsmaßnahmen in Bezug auf die IoT-Geräte ableiten lassen 
können. 


1 Einleitung 


Zur Erfüllung bzw. Einhaltung aller Anforderungen an ein Produkt ist das 
Qualitätsmanagement (QM) bzw. die Qualitätssicherung (QS) einer der we- 
sentlichen Bestandteile der Produktion. Quantitative Methoden der QS, wie 
z.B. Six Sigma, stützen sich dabei auf die Produktionsdaten aus MES- und 
ERP-Systemen. Hierbei wird jedoch der Großteil des Lebenszyklus von Pro- 
dukten nicht berücksichtigt: Die tatsächliche Nutzung beim Endkunden. Ver- 
anschaulichen lässt sich dies anhand von Bild 1, in dem der Status quo und 
die Vision einer QS von IoT-Geräten gegenübergestellt werden. Neben den 
Produktionsdaten bieten sich Nutzungs- und Fehlerdaten der gefertigten Pro- 
dukte bzw. Geräte als zusätzliche Datenquelle für die QS an. Das Internet of 
Things (IoT) ermöglicht es, diese Daten direkt aus den IoT-Geräten zu erheben. 
Ein Beispiel für IoT-Geräte sind vernetzte Waschmaschinen, die Daten zu den 
gewählten Waschprogrammen der Endkunden sowie aus ihrer geräte-internen 
Fehlerdiagnose erfassen (vgl. Bild 1b) und Ic)). Diese Daten lassen sich als 
IoT-Gerätenutzungsdaten bezeichnen, mit deren Hilfe eine kundenorientierte 
Qualitätssicherung (vgl. Bild 1a)) nach den Grundsätzen des Total-Quality- 
Managements erreicht werden kann. 


Mithilfe dieser zusätzlichen Gerätenutzungsinformationen können hypo- 
thetische Ursachen für einen auftretenden Fehlerfall identifiziert werden. 
Die Domänenexpert:Innen des QM werden dabei besser und zuverlässiger 
unterstützt, unbekannte Kausalitäten aufzudecken, bekannte Kausalitäten 
zu bestätigen und neues Domänenwissen zu generieren. Der Vergleich 
einer QS auf Basis von IoT-Gerätenutzungsdaten mit dem Status quo zeigt 
jedoch Unterschiede in den Eigenschaften der Datenquellen und -basen 
(vgl. Bild 1c) und 1d)). Diese äußern sich in Form großer, heterogener und 
hochdimensionaler Datenmengen in einem kontinuierlichen Datenstrom. 
Durch Verfahren der künstlichen Intelligenz (KI) bzw. des Machine Learnings 
(ML) können diese Datenmengen ausgewertet werden (vgl. Bild 1e)). 
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Bild 1: Status quo und Vision einer QS bzgl. des a) Lebenszyklus von b) IoT-Geräten als 
zusätzliche c) Datenquelle. Anhand von IoT-Gerätenutzungsdaten als d) Datenbasis 
ergeben sich neue Potenziale zur e) Auswertung mittels KI und IML. 


Infolge der Anforderungen an Präzision in der QS werden nachvollziehbare 
Entscheidungen in der Datenauswertung benötigt, wodurch sich Verfahren des 
Interpretable Machine Learnings (IML) anbieten, um die zumeist intranspa- 
renten Entscheidungen des ML erklärbar zu machen. Vergleichbare technische 
Systeme in [1, 2, 3] lösten bereits ähnliche Aufgaben zur Generierung neuen 
Wissens mittels IML-Verfahren. Eine derartige Anwendung im Bereich der QS 
für IoT-Geräte steht jedoch noch aus. Das Potenzial von IML wird zudem im 
Gesundheitswesen ersichtlich [4, 5], wo ebenfalls ein hohes Maß an Präzision 
und Sorgfalt gefordert ist. 


In diesem Beitrag wird ein Konzept für ein Assistenzsystem zur QS basie- 
rend auf IoT-Gerätenutzungsdaten und Verfahren des ML sowie IML vorge- 
stellt, welches anhand realer Daten vernetzter Waschmaschinen evaluiert wird. 
Ziel des Assistenzsystems ist es, Domänenexpert:Innen aus dem QM bei der 
explorativen Untersuchung von Fehlerfällen, die während der Gerätenutzung 
auftreten, zu unterstützen. In den Daten enthaltene Zusammenhänge zwischen 
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Gerätenutzung und auftretenden Fehlerfällen werden in ML-Modelle mittels 
Automated Machine Learning (AutoML) verdichtet. Anschließend werden die 
erlernten Zusammenhänge zur Bereitstellung neuer hypothetischer Fehlerursa- 
chen durch SHAP aus den ML-Modellen extrahiert und grafisch dargestellt. 


2 Theoretische Grundlagen & Stand der Technik 


Wesentlich für das in diesem Beitrag vorgestellte Konzept sind das AutoML 
zur Approximation der Funktion f : 2 — % zwischen Gerätenutzung 7 und 
Fehlerfall % der IoT-Geräte, sowie das IML zur Untersuchung des erlernten 
Zusammenhangs von f. 


Automated Machine Learning (AutoML). Unter AutoML ist ein Prozess fiir 
die automatisierte Entwicklung von ML-Pipelines zur Approximation von f 
aus einem dedizierten Datensatz 2 = {(x),y®)} , zu verstehen. Der Daten- 
satz besteht aus N gelabelten Instanzen, für die x“ € 2 und y® € Y gilt. 
Der Prozess beinhaltet die Auswahl, Kombination sowie Parametrisierung von 
ML-Algorithmen. Formalisieren lasst sich dieser Prozess als Optimierungspro- 
blem, das als Combined Algorithm Selection and Hyperparameter optimization 
(CASH) bezeichnet wird [6]: 


Aj.€ argmin E[L(AM, Drains Pratia)] (1) 
AM Ea AEN) 

mit A als Hyperparameter aus den Hyperparameterräumen A). A(X) 
und den zugehörigen ML-Algorithmen o/ = {A"!),...,A®)} für k = 1,...,K. 
Zudem bezeichnet LA”, Pain; Praia) die Fehlerfunktion für einen auf den 
Trainingsdatensatz Žrain C Y angewendeten und am Validierungsdatensatz 
Dai C Y getesteten Algorithmus AW, Eine gängige Methode zur 
Lösung des CASH-Problems besteht darin, die Algorithmenauswahl 
als zusätzlichen Hyperparameter zu betrachten, wodurch etablierte 
Hyperparameteroptimierungen verwendet werden können, wie z.B. SMAC 
[7], Hyperband [8] und BOHB [9]. Unter Berücksichtigung der natürlichen 
Hierarchie bzgl. Auswahl und Parametrisierung von ML-Algorithmen (AM) 
bedingt A) stellen hierarchische Suchansätze, wie z.B. ML-Plan [10], eine 
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weitere Lösung des CASH-Problems dar. Des Weiteren bieten sich Verfahren 
des Reinforcement Learnings an, in denen der Agent geeignete A und A 
auswählt [11]. 


Interpretable Machine Learning (IML). IML bezeichnet Methoden, die das 
Verhalten und die Vorhersagen von ML-Modellen für den Menschen verständ- 
lich machen [12]. Während sich die lokale Interpretierbarkeit auf die Erklä- 
rung einzelner Prädiktionen bezieht, ist unter einer globalen Interpretierbarkeit 
die Erklärung des gesamten Modellverhaltens zu verstehen. Wesentlich für 
die Interpretierbarkeit von ML-Modellen ist der Einfluss eingehender Merk- 
male auf die resultierenden Prädiktionen [13]. Gegenüber inhärent interpre- 
tierbaren ML-Modellen (z.B. Decision Trees) eignen sich besonders modell- 
agnostische post-hoc Methoden, welche die Interpretation vom ML-Modell 
separieren und eine schwerpunktmäßige Betrachtung der Modellgenauigkeit 
ermöglichen. Shapley-Werte bieten dazu aufgrund hoher Übereinstimmungen 
mit der menschlichen Intuition und einer fundierten theoretischen Grundla- 
ge [14] gegenüber vergleichbaren Methoden, wie LIME [15] oder PFI [20], 
ein großes Potenzial. Ausgehend von einer lokalen Prädiktion f (x) lassen 
sich die Shapley-Werte @ a für jedes Merkmal j über eine gewichtete Summe 
darstellen, die den Einfluss jedes zum ML-Modell hinzugefügten Merkmals 
wiedergibt, gemittelt über alle Kombinationen verfügbarer Merkmale [14]: 


7M —|.7|— 1)! 


M! ‘(f(A U Lif) — KA) (2) 


9? = 


SCS a\{ I} 


mit der Merkmalsanzahl M, der Menge aller Merkmale ın, und der Prädik- 
tion A(Z) = Elf (x)|x.7] einer ausgewählten und auf die Teilmenge -Z be- 
schränkten Kombination an Merkmalen x. > des Eingabevektors. Des Weiteren 
besitzen Shapley-Werte folgende Eigenschaften: a) Die Summe der Shapley- 
Werte aller Merkmale ist gleich der Differenz aus f (x) minus der mittleren 
Prädiktion E[/(x)] einer zufälligen Instanz x € 2°; b) oP = 0, wenn das Merk- 
mal j keinen Einfluss auf die Prädiktion hat; c) wenn die Werte zweier Merk- 
male über alle . hinweg eine symmetrische Auswirkung haben, ergeben sich 
die gleichen Shapley-Werte und d) ihre lokalen Einflüsse sind über xl) hinweg 
additiv [13]. Die exakte Berechnung der Shapley-Werte äußert sich jedoch auf- 
grund 2” möglicher Teilmengen für ./ als NP-schwer. Sampling-basierte Ap- 
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proximationen der Shapley-Werte, wie Kernel-SHAP [14], ermöglichen zwar 
die Berechnung lokaler Interpretationen, scheitern jedoch an einer globalen 
Interpretation für große Datensätze [16]. Die Anpassung von Kernel-SHAP für 
baumartige ML-Modelle führt zu Tree-SHAP und ermöglicht eine Reduktion 
der ursprünglich exponentiellen auf eine polynomielle Berechnungszeit. Die 
zugrundeliegende Idee von Tree-SHAP besteht darin, den Anteil aller mögli- 
chen Teilmengen in jedes der Blätter des Baums rekursiv zu verfolgen. Da die 
hierdurch erzeugten Shapley-Werte auf bedingte Erwartungswerte beruhen, ist 
eine gesonderte Behandlung abhängiger Merkmale erforderlich, welche die In- 
terpretation verfälschen können (z.B. die Schätzung von gl? # 0 fiir Merkma- 
le ohne Einfluss) [12]. Unter Beriicksichtigung eines Backgrounddatensatzes 
lässt sich diese Abhängigkeit nach den Regeln der zufälligen Inferenz beheben, 
wodurch die zuvor aufgeführten Eigenschaften weiterhin gültig sind und sich 
zusätzlich eine Berechnungszeit proportional zur Größe des Backgroundda- 
tensatzes ergibt [17]. Aufgrund der Komplexitätsreduktion ermöglicht Tree- 
SHAP eine globale Interpretierbarkeit basierend auf vielen lokalen Interpreta- 
tionen. 


3 Konzept des Kl-basierten Assistenzsystems 


Der Nutzen des KI-basierten Assistenzsystems liegt in der Bereitstellung hypo- 
thetischer Ursachen für Fehlerfälle F#;, die aufgrund der Gerätenutzung auftre- 
ten. Diese Ursachen sollen den Domänenexpert:Innen helfen, unbekannte Kau- 
salitäten zu identifizieren und bekannte Kausalitäten zu bestätigen. Die Anzahl 
und Art der Fehlerfälle F#; werden von dem jeweiligen Fehlerdiagnosesystem 
der IoT-Geräte vorgegeben, wie z.B. Kurzschluss im Gerät. Das Konzept dieses 
KI-basierten Assistenzsystems zur QS von IoT-Geräten ist in Bild 2 darge- 
stellt. Als Eingabe in das System dienen IoT-Gerätenutzungsdaten (bestehend 
aus Nutzungs- und Fehlerdaten der IoT-Geräte), während als Ausgabe Dia- 
gramme zur Erklärung des erlernten Zusammenhangs zwischen Gerätenutzung 
und Fehlerfällen dienen. Hierbei vereinigt das Konzept die drei Schritte 1) 
einer kontinuierlichen Fehlerüberwachung mittels Methoden der deskriptiven 
Datenanalyse, namens QS-Watchdog, 2) einer automatisierten Modellbildung 
zur Klassifikation eines Fehlerfalls anhand zugehöriger Nutzungsdaten mittels 
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IoT-Gerätenutzungsdaten QS-Watchdog 
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Ber bi] ode #3 FH; 28 Fehleriiberwachung 
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E oO Relevante Fehlerfälle F#, 


Automatisierte Modellbildung 


Nutzungs- H-2} 
Durchführung von Br f Re 1 VER 2 
Verbesserungsmaßnahmen a ©; 
(z.B. Softwareupdates) Feee | { ara 


daten | x pro Fehlerfall F#, 


o Binäre Klassifikatoren 
Domänenexpert:Innen des 


Qualitätsmanagements Bereitstellung hypothetischer Ursachen 
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Diagramme zur Se AP 
Aufstellung von Interpretable Machine m : 
hypoth. Ursachen Learning mit SHAP 


Bild 2: Assistenzsystem zur QS mittels IoT-Gerätenutzungsdaten als Eingabe, einer 1) kontinu- 
ierlichen Fehlerüberwachung, 2) automatisierten Modellbildung mittels AutoML und 3) 
Bereitstellung hypothetischer Ursachen durch IML für Domänenexpert:Innen des QM 


AutoML und 3) die globale Interpretation zuvor trainierter Modelle mittels 
Shapley-Werten in Form von aussagekräftigen Diagrammen. 


Qualitätssicherungs-Watchdog (QS-Watchdog). Aufgrund eines starken 
Ungleichgewichts zwischen intakten und defekten Geräten, bedarf 
es einer Selektion von Fehlerfällen, um eine stichhaltige Menge an 
Labels in Form von betroffenen Geräten für die weiteren Schritte 
zu gewährleisten. Gleichzeitig ist die Beobachtung von Trends bei 
relevanten Fehlerfällen, die den Kundennutzen beeinträchtigen, für die 
Domänenexpert:Innen des QM von Interesse, was den Einsatz einer 
kontinuierlichen Fehlerüberwachung der IoT-Geräte notwendig macht. Hierfür 
ist es erforderlich, eine Kennzahl zu definieren, die relevante von nicht- 
relevanten Fehlerfällen unterscheidet und somit eine Priorisierung ermöglicht. 
Aus dem Bereich der Zuverlässigkeitsanalyse bieten sich Kennzahlen an, 
welche die Häufigkeit relevanter Fehler mit der Betriebszeit in Bezug setzen. 
Eine der hierbei wichtigsten Kennzahlen stellt die Fehlerrate A(t) dar. Für 
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praktische Anwendungen kann A(t) = A angenommen werden, wodurch sich 
A über A = n/T schätzen lässt, wobei T die kumulierte Betriebszeit und n 
die absolute Anzahl an Fehlern ist [18]. Als Kennzahl für den QS-Watchdog 
ergibt sich demnach die geschätzte Fehlerrate Ars, pro Fehlerfall F#; für ein 
zuvor festgelegtes Zeitintervall: 


Ara, = nrs /T. (3) 


Wichtig zu erwähnen ist, dass sich n auf die Anzahl repräsentativer Fehler 
bezieht, die dadurch definiert werden, dass sie auf eine Unterbrechung der 
Gerätefunktionalität (z.B. Stopp eines Waschprogramms) folgen müssen. 


Automatisierte Modellbildung. Für eine präzise Erklärung des Zusammen- 
hangs zwischen Gerätenutzung und Fehlerfällen basieren die zugrundeliegen- 
den ML-Modelle auf einer pro Fehlerfall F#; konzentrierten binären Klassifi- 
kation yr+, € {0 := F# trat nicht auf, 1 := F#; trat auf}. Anstelle eines univer- 
sellen Klassifikators ist es somit erforderlich, mehrere binäre Klassifikatoren je 
Fehlerfall zu trainieren. Um das Training der Klassifikatoren dennoch domäne- 
nunabhängig und automatisiert zu gestalten, erfolgt dieser Schritt mit Hilfe von 
AutoML. In diesem Beitrag wird das AutoML von Databricks [19] verwen- 
det, welches die folgenden ML-Algorithmen beinhaltet: Logistic Regression, 
Decision Trees, Random Forests [20], XGBoost (XGB) [21] und LightGBM 
(LGBM) [22]. Zusätzlich ergibt sich durch die Beschränkung auf binäre Klas- 
sifikationen eine deutlich verringerte Komplexität des Suchraums nach (1), die 
sich positiv auf die angestrebte Generalisierbarkeit auswirkt [23]. Zur Evalua- 
tion der AutoML-Modelle werden die IoT-Gerätenutzungsdaten in Testdaten 
Driest und Trainingsdaten aufgeteilt (25%, 75%), wobei die Trainingsdaten je- 
weils vom AutoML in separate Trainingsmengen Zain und Validierungsmen- 
gen Yaa Stratifiziert unterteilt (75%, 25%) werden. In Anbetracht der stark 
ungleich verteilten Klassen findet die Beurteilung erfolgreicher Klassifikatoren 
mittels des FI-Scores Fi für Dey statt. Ab einem F; > 0.9 für Pest wird dem 
Klassifikator eine ausreichende Generalisierbarkeit des Datensatzes für eine 
anschließende Interpretation zugesprochen. Andernfalls wird der Klassifikator 
für weitere Interpretationen zurückgewiesen. 
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Bevor AutoML angewendet werden kann, müssen die binären Klassen aus der 
Gerätemenge extrahiert werden, die keine Fehlerfälle beinhalten und somit das 
Normalverhalten charakterisieren, sowie aus defekten Geräten bzgl. des be- 
trachteten Fehlerfalls bestehen. Aufgrund des Ungleichgewichts zwischen in- 
takten und defekten Geräten, bieten sich Under- und Oversampling-Verfahren 
zur Bereinigung der ungleichen Verteilung an. Während beim Undersampling 
eine zufällige Untermenge aus der Klasse intakter Geräte ausgewählt wird, 
werden beim Oversampling neue synthetische Daten aus der Klasse defekter 
Geräte, z.B. mittels SMOTE bzw. SMOTE-NC [25] generiert, wodurch sich 
bei beiden Verfahren ein ausbalancierter Trainingsdatensatz ergibt. Um mög- 
lichst signifikante Merkmale zu verwenden, werden diese mittels FRESH [26] 
anhand von p-Werten auf ihre Signifikanz gegenüber der Klasse getestet und 
selektiert. Angesichts der Betrachtung von Geräten über die gesamte Betriebs- 
zeit kann durch eine gesonderte Betrachtung der Nutzungsverlauf defekter Ge- 
räte bis zum ersten relevanten Fehlerfall hergestellt werden. Hierdurch ließen 
sich bspw. Nutzungsmuster in den Anfangsphasen des Gerätes bis zur ersten 
Reparatur identifizieren. 


Bereitstellung hypothetischer Ursachen. Zur Interpretation des erlernten Zu- 
sammenhangs zwischen Nutzung und Fehler für eine Menge an intakten und 
defekten Geräten bedarf es einer globalen Interpretation des erlernten Mo- 
dellverhaltens. Dieses lässt sich über den Einfluss eingehender Merkmale auf 
das Prädiktionsergebnis mittels Shapley-Werten beschreiben und interpretie- 
ren. Die Ermittlung der Shapley-Werte erfolgt durch Tree-SHAP, wodurch die 
globale Interpretation über eine Vielzahl lokaler Interpretationen der zuvor se- 
parierten Testmengen Zest erfolgt. Da es sich bei der automatisierten Modell- 
bildung um binäre Klassifikatoren handelt, dient hierbei die prädizierte Wahr- 
scheinlichkeit f (x) für ein defektes Gerät als Ausgabe. Für einen idealen bi- 
nären Klassifikator (F = 1.0) mit ausbalancierten Daten ergibt sich E[f(x)] = 
0.5. Wie in Bild 3a) schematisch dargestellt, kann f (x) für eine lokale Inter- 
pretation ausgehend von E[f(x)] durch Aufsummieren aller ol” über j nach- 
vollzogen werden. Zur Bestimmung des globalen Merkmalseinflusses (Feature 
Importance) I; eignet sich der Mittelwert der absoluten Shapley-Werte pro 
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Bild 3: Schematische Diagramme zur Interpretation mittels Shapley-Werten für a) lokale Interpre- 
tationen, b) globale Merkmalseinflüsse und c) einer Übersichtsabbildung. 
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für alle Instanzen aus Aes. Für eine erste globale Interpretation lässt sich /;, 
wie in Bild 3b), über ein Balkendiagramm darstellen. In Verbindung mit den 


(i) 


tatsächlichen Merkmalswerten x,’ zur Gerätenutzung jeder lokalen Interpreta- 


tion und den zugehörigen Shapley-Werten N, lassen sich globale wechselsei- 
tige Beziehungen zwischen der Gerätenutzung und auftretenden Fehlerfällen in 
einer sogenannten Übersichtsabbildung identifizieren. Diese Übersichtsabbil- 
dung ist in Bild 3c) schematisch dargestellt. Hierbei gibt jeder Punkt eine lokale 
Interpretation pro Merkmal auf der y-Achse wieder, während die Shapley- 
Werte auf der x-Achse aufgetragen sind und der Merkmalswert über die Farbe 
der Punktfüllung beschrieben wird. Für einen Überblick über die Verteilung 
werden überlappende Punkte in Richtung der y-Achse gestapelt. Außerdem 
wird die Beschreibung dieser Merkmale in allen Diagrammen auf maximal 
drei beschränkt, da eine für den Menschen gute Erklärung weniger durch eine 
allumfassende als vielmehr durch eine präzise Erklärung ausgewählter Merk- 
male erreicht wird [24]. Der Einfluss aller restlichen Merkmale wird über diese 
Beschränkung hinaus zusammengefasst. 


4 Evaluation 


Zur Evaluation des Konzepts dienen reale IoT-Gerätenutzungsdaten von ver- 
netzten Waschmaschinen, die im nachfolgenden Abschnitt 4.1 vorgestellt wer- 
den. Darauf aufbauend erfolgt in Abschnitt 4.2 eine schrittweise Evaluation der 
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einzelnen Bestandteile des Konzepts sowie in Abschnitt 4.3 eine Vorstellung 
und Diskussion der Evaluationsergebnisse. 


4.1 Rahmenbedingungen & Versuchsaufbau 


Der Evaluationsdatensatz des verwendeten Versuchsaufbaus umfasst reale IoT- 
Gerätenutzungsdaten von > 40 Tsd. vernetzten Waschmaschinen, die Daten 
zu > 10 Mio. Waschprogrammen beinhalten und über einen Zeitraum vom 
August 2019 bis Mai 2021 erhoben wurden. Hinter jedem dieser Waschpro- 
gramme verbergen sich ereignisdiskrete Daten, welche sich in Nutzungs-! und 
Fehlerdaten? aufteilen lassen. Die Vielzahl dieser Ereignisse führt zu einem 
Datenstrom mit fortlaufend neu hinzukommenden Geräten, gerätespezifischen 
Zeitreihen vereinzelter Nutzungs- und Fehlerdaten sowie Inkonsistenzen realer 
Datenproduzenten. Um diesen Datenstrom effizient zu verwalten und über alle 
Geräte hinweg vergleichbar zu machen, bietet sich eine aggregierte Sicht der 
IoT-Gerätenutzungsdaten an [26]. In dieser aggregierten Sicht werden die ge- 
rätespezifischen Zeitreihen der Nutzungs- und Fehlerdaten zusammengefasst, 
sodass jedes Element die bisherige Betriebszeit eines Gerätes beschreibt, in- 
klusive einer Auflistung bereits aufgetretener Fehlerfälle. Ein Gerät wird als in- 
takt bezeichnet, wenn während der bisherigen Betriebszeit keinerlei Fehlerfälle 
aufgetreten sind. Die Aggregation der Nutzungsdaten erfolgt über die Extrak- 
tion etablierter deskriptiver Merkmale? aus den dynamischen Variablen eines 
Waschprogramms. Die Extraktion der booleschen Programmextras erfolgt an- 
hand der aktiven Nutzung dieser Extras im Verhältnis zur Anzahl durchgeführ- 
ter Waschprogramme pro Gerät*. Für jeden Fehlerfall F#; wird nach diesem 


! Nutzungsdaten lassen sich in vier Gruppen clustern: 1) Geräteeigenschaften beinhaltet den 
Gerätetyp und die Softwareversion; 2) Programmanwahl beinhaltet das Waschprogramm 
(z.B. Feinwäsche, etc.), zusätzliche Einstellparameter (Temperatur, Schleuderdrehzahl) und 
Programmextras (z.B. Stärken/Weichspülen, etc.); 3) Programmzustand beinhaltet den Energie-, 
Wasserverbrauch und die Programmdauer abgeschlossener Waschprogramme; 4) Die automati- 
sche Dosierung beinhaltet die Dosierungsmenge und den verbleibenden Waschmittelinhalt. 

? Fehlerdaten beinhalten Informationen zu aufgetretenen Fehlerfällen während eines Waschpro- 
gramms, die von der internen Gerätefehlerdiagnose bestimmt werden. 

3 Folgende deskriptive Merkmale werden berechnet: Arithmetischer Mittelwert, Median, Varianz, 
Standardabweichung, Minimum, Maximum, RMS und Summe aller Werte. 

4 Bsp.: Das Programmextra Stärken/Weichspülen wird zum Merkmal Stärken/Weichspülen%. 
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Fehlerrate 


2019-09 2019-11 2020-01 2020-03 2020-05 2020-07 2020-09 2020-11 2021-01 2021-03 
Zeitintervall in Monaten 


Bild 4: Fehlerrate aller spezifizierten Fehlerfälle pro Monate vom 08.2019 bis zum 04.2021, 
inklusive der hervorgehobenen Fehlerfälle F#; und F#2. 


Schema eine aggregierte Sicht der Nutzungsdaten aus intakten und defekten 
Geräten erzeugt, woraus sich die entsprechenden Datensätze Dry, ergeben. 


4.2 Schrittweise Evaluation des Konzepts 


Evaluation des QS-Watchdogs. Mittels der Fehlerdaten des Evaluationsda- 
tensatzes lässt sich die kontinuierliche Fehlerüberwachung für jeden Fehlerfall 
F#; nachbilden, wobei ein Zeitintervall von einem Monat betrachtet wird. Die 
Fehlerrate Ars, lässt sich nach (3) bestimmen. In Bild 4 ist die Fehlerrate 
über den betrachteten Zeitraum pro Fehlerfall F#; dargestellt, wobei Ars, lo- 
garithmisch abgebildet wird. Insgesamt ist ein deutlicher Rückgang von Ars, 
zu erkennen, welches jedoch auf die anfänglich geringe Betriebszeit weniger 
IoT-Geräte im Evaluationsdatensatz zurückzuführen ist. Auffällig sind hierbei 
die Fehlerfälle F#,; und F#2, die sich von der Gesamtmenge an Fehlern abset- 
zen, eine demnach hohe Relevanz aufweisen und zur weiteren Betrachtung der 
automatisierten Modellbildung herangezogen werden. 


Evaluation der automatisierten Modellbildung. Basierend auf den identifi- 
zierten Fehlerfällen F#, und F#2 des QS-Watchdogs findet im Folgenden die 
Modellbildung mittels AutoML zur Generierung von f: X — % anhand der 
Evaluationsdatensätze Dry, und Dry, statt. Durch die stratifizierte Aufteilung 
dieser Datensätze ergibt sich für jeden der Fehlerfälle ein Testumfang von > 10 
Tsd. Geräte, wobei F#, einen Anteil von 4,7% und F#, von 2,2% defekter 
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Tabelle 1: Evaluation der automatisierten Modellbildung anhand der besten AutoML-Runs für 
alle Datensatzkonfigurationen der Fehlerfälle F#, und F#, mittels separatem 
Testdatensatz. Erfolgreiche Runs mit F; > 0.9 sind fett markiert. 


Datensatzkonfiguration Testergebnisse der besten AutoML-Runs 
Fehlerfall #5 #B #nM Klassif. F; PPV TPR MMC 
FH, Dre, - - 126 LGBM 0.984 0.998 0.971 0.984 
Dry, U - 100 LGBM 0.41 0.374 0.979 0.578 

Dry, O - 133 LGBM 0.987 0.992 0.981 0.986 

Das - v 112 XGB 0.958 0.993 0.926 0.957 

Dry, U Vv 120 LGBM 0.206 0.115 0.984 0.263 

Dry, O Vv 131 XGB 0.957 0.996 0.922 0.956 

FH, Dry, - - 123 LGBM 0.105 0.341 0.062 0.138 
Dry, U - 91 LGBM 0.045 0.023 0.712 0.012 

Dry, O - 141 LGBM 0.92 0578 0.15 0.251 

Dry, ~ v 100 XGB 0.281 0.621 0.181 0.329 

Dry, U Vv 112 XGB 0.064 0.033 0.854 0.087 

Dr, O Vv 134 LGBM 0.46 0.723 0.323 «0.476 


#S-Samplingart: kein Sampling (-), Undersampling (U), Oversampling (O); 
#B-Betriebszeit bis Fehler: nein (-), ja (v); #nM-Merkmalsanzahl 


IoT-Geräte aufweist. Zur Adressierung dieses Ungleichgewichts kommen die 
zusätzlichen Maßnahmen des Under- und Oversampling zum Einsatz. Hin- 
zu kommt die zusätzliche Betrachtung der Gerätebetriebszeit bis zum ersten 
Fehlerfall, wodurch sich insgesamt sechs verschiedene Datensatzkonfiguratio- 
nen in Form der aggregierten IoT-Gerätenutzungsdaten ergeben: Kein Samp- 
ling, Undersampling, Oversampling jeweils pro gesamter Betriebszeit sowie 
bis zum ersten Fehlerfall. Aufgrund der Merkmalsauswahl mittels FRESH va- 
riiert die Anzahl der Merkmale in jeder Datensatzkonfiguration. Für jede der 
insgesamt 12 Datensatzkonfiguration wird ein AutoML-Run gestartet, welcher 
200 Versuche beinhaltet. Die Evaluationsergebnisse der besten AutoML-Runs 
mittels der separierten Testmengen sind in Tabelle 1 aufgeführt. Neben F; als 
primäre Bewertungsmetrik werden hier Precision PPV und Recall TPR als 
zusätzliche Metriken aufgeführt. Um Fehlinterpretationen aufgrund des star- 
ken Klassenungleichgewichts zu vermeiden, wird auf die Evaluation mittels 
Accuracy verzichtet und der Matthews-Correlation-Coefficient MCC zur Be- 
trachtung der gesamten Konfusionsmatrix verwendet [27]. Die Evaluation aus 
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Tabelle 1 zeigt, dass vier Klassifikatoren für den Fehlerfall F#, in der La- 
ge sind, eine ausreichende Generalisierbarkeit von f für Dry, zu erlernen. 
Auffällig ist zudem, dass beim Undersampling zwar ein guter Recall in allen 
Fehlerfällen erzielt werden konnte, der jedoch zu Lasten der Precision fällt. 
Für den Fehlerfall F# 2 konnte diese Generalisierbarkeit jedoch nicht erzielt 
werden, wodurch dieser von einer darauffolgenden Interpretation zurückgewie- 
sen wird. Zur weiteren Evaluation der Bereitstellung hypothetischer Ursachen 
werden demnach die erfolgreichen Klassifikatoren der Datensatzkonfiguratio- 
nen Pry, ZF# z ZF a und Dry, , für den Fehlerfall F#} mittels Verfahren 
des IML untersucht. 


Evaluation der Bereitstellung hypothetischer Ursachen. Zur Bereitstellung 
hypothetischer Ursachen des Fehlerfalls F# werden die Shapley-Werte der 
vier erfolgreichen Klassifikatoren mittels Tree-SHAP für die zuvor bestimmten 
Testdaten berechnet. Aufgrund des Klassenungleichgewichts wird ein zusätz- 
liches Undersampling durchgeführt, um die Klassen der intakten Geräte zu 
reduzieren und eine Fehlinterpretation der Modelle zu vermeiden. Der für die 
Berechnung verwendete Backgrounddatensatz entspricht hierbei den reduzier- 
ten Trainingsdaten der Datensatzkonfigurationen, während für die tatsächliche 
Schätzung der Shapley-Werte die jeweiligen reduzierten Testdaten verwendet 
werden. Für diese ausbalancierten Testdaten ergibt sich für die betrachteten 
Klassifikatoren eine Genauigkeit von > 0.961, die eine stichhaltige Interpreta- 
tion dieser Shapley-Werte erlaubt. 


In Bild 5 sind drei lokale Interpretationen des Klassifikators aus Yr4, , für ver- 
schiedene Waschmaschinen gegenübergestellt. Der Klassifikator besitzt einen 
Erwartungswert von E|/(x)] = 0.497 und gibt für die Waschmaschine in Sa) 
eine Wahrscheinlichkeit von f (x) = 0.001 bzgl. des Fehlerfalls F# aus. Der 
Shapley-Wert des Merkmals Stärken/Weichspülen% gibt hierbei den größten 
Einfluss mit einem Merkmalswert von 0% wieder. Genau gegensätzlich verhält 
es sich mit der Waschmaschine aus 5b), die zu 100% Stärken/Weichspülen 
verwendet hat und zu f (x?) = 0.999 als defekt klassifiziert wird. Bei der 
Waschmaschine in 5c) stellt sich die Ausgabe als weniger eindeutig heraus. 
Während ein Großteil der Merkmale dazu führt, dass der Klassifikator zu ei- 
nem defekten Gerät tendiert, senkt der Verzicht auf Stärken/Weichspülen diese 
Tendenz von ursprünglich 0.915 auf f(x°)) = 0.585. 
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Bild 5: Lokale Interpretationen der ausgegebenen Wahrscheinlichkeit für ein defektes Gerät bzgl. 
des Fehlers F#4 mittels Shapley-Werten für drei verschiedene IoT-Geräte mit a) einem 
intakten Gerät, b) einem defekten Gerät und c) einer unsicheren Prädiktion. 


Für eine erste globale Interpretation erfolgt die Ermittlung des Einflusses pro 
Merkmal nach (4) unter Verwendung der zuvor berechneten Shapley-Werte 
der Testdatensätze. In Bild 6 sind diese globalen Merkmalseinflüsse für jeden 
erfolgreichen Klassifikator gegenübergestellt. Dieses zeigt den signifikanten 
Einfluss des Merkmals Stärken/Weichspülen% und unterstützt die Beobachtun- 
gen der zuvor aufgeführten lokalen Interpretationen aus Bild 5. Insbesondere 
der Klassifikator aus Dry, , zeigt einen hohen Einfluss von 0.42, während der 
Klassifikator aus Yr, , mit Oversampling auf mehrere Merkmale angewiesen 
ist. Die Klassifikatoren aus Dry, , und Dry, mit Betriebszeit bis zum Fehler 
äußern eine Relevanz des Merkmals Waschmittelverstärker%, das bei Betrach- 
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Bild 6: Balkendiagramm zur Darstellung des globalen Merkmalseinflusses mittels Shapley-Werten 
für die erfolgreichen Klassifikatoren der AutoML-Runs des Fehlerfalls F#; . 
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Bild 7: Übersichtsabbildung der Shapley-Werte für erfolgreiche Klassifikatoren aus Drs,» Dre, 35 
Dru, , und Dry, , des Fehlerfalls F#, zur Darstellung des Merkmalseinflusses gegenüber 
ihrer Merkmalswerte. 


tung der gesamten Betriebszeit keine Bedeutung hat. Zusätzlich zum reinen 
Einfluss sind in Bild 7 die gesamten lokalen Interpretationen inklusive der 
jeweiligen Merkmalswerte in einer Übersichtsabbildung dargestellt. Zu erken- 
nen ist hierbei, dass alle Waschmaschinen, die Stärken/Weichspülen verwendet 
haben (rote Punkte), positive und hohe Shapley-Werte aufweisen, während 
die Mehrzahl der Waschmaschinen, die kein Stärken/Weichspülen verwendet 
haben (blaue Punkte), negative Shapley-Werte aufweisen. Die Shapley-Werte 
der restlichen Merkmale äußern ein deutlich geringeren Einfluss. So tendieren 
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bspw. Prädiktionen für Waschmaschinen mit einem hohen Wert des Merkmals 
minimaler Energieverbrauch oder einem geringen Wert des Merkmals Wasch- 
mittelverstärker%, geringfügig zu einem intakten Gerät. 


4.3 Ergebnisse & Diskussion 


Anhand der Ausgabe des Assistenzsystems, in Form der Bilder 5, 6 und 7, lässt 
sich Stärken/Weichspülen% aufgrund seiner Signifikanz als alleinige hypothe- 
tische Ursache basierend auf der Gerätenutzung für den Fehlerfall F#; identi- 
fizieren. Hypothese: Der Fehlerfall F#, tritt bei Waschmaschinen auf, bei de- 
nen das Programmextra Stärken/Weichspülen verwendet wurde. Die restlichen 
Merkmale bieten hingegen einen zu geringen Einfluss, um weitere hypothe- 
tische Ursachen abzuleiten. Durch die Aufdeckung des unbekannten Zusam- 
menhangs zwischen dem Stärken/Weichspülen und dem Auftreten des Fehler- 
falls F#4, ist die Evaluation insgesamt positiv zu bewerten. Hinzu kommt die 
erfolgreiche Bestimmung der Relevanz von F#, und F#2, sowie die Feststel- 
lung einer unzureichenden Grundlage des F# für weitere Interpretationen. 


Trotz einer erfolgreichen Evaluation des Konzepts ist nicht sichergestellt, dass 
die identifizierten hypothetischen Ursachen einen kausalen Zusammenhang 
zum untersuchten Fehlerfall aufweisen. Eine eindeutige Fehlschlussfolgerung 
wäre z.B., dass der Energieverbrauch der Geräte erhöht werden muss, 
um die Wahrscheinlichkeit für den Fehler F#,; zu verringern. Demnach 
bedarf es weiterhin Domänenexpert:Innen, welche die vom Assistenzsystem 
aufgezeigten Korrelationen kritisch überprüfen und in kausale Zusammen- 
hänge überführen müssen. Anhand von kausal widerlegbaren Hypothesen 
können Verbesserungen an der Datenbasis von IoT-Gerätenutzungsdaten, 
anstatt an den IoT-Geräten selbst, vorgenommen werden. Bspw. ließen 
sich durch widerlegbare Hypothesen unbekannte Inkonsistenzen oder 
bislang unbeobachtete Confounder in den Daten identifizieren. Eine weitere 
Beschränkung ergibt sich aus der Begrenzung des eingehenden Datensatzes 
auf die Nutzung der Geräte, während ein ganzheitlicher Datensatz über die 
Lebenszeit (Produktion + Nutzung) umfassendere Zusammenhänge sowie 
Schlussfolgerungen zulässt. Des Weiteren äußerte sich die Durchführung 
mehrerer AutoML-Runs je Fehlerfall für die binären Klassifikationen zwar 
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als präzise, was jedoch zu Lasten der Skalierbarkeit des Konzepts auf die 
Anwendung mehrere Fehlerfälle geht. 


5 Zusammenfassung & Ausblick 


In dieser Arbeit wurde das Konzept eines KI-basierten Assistenzsystems zur 
QS von IoT-Geräten vorgestellt, das relevante Fehlerfälle identifiziert, Zusam- 
menhänge zwischen Gerätenutzung und Fehlerfällen mittels AutoML approxi- 
miert, und diese Zusammenhänge den Domänenexpert:Innen mittels SHAP zu- 
gänglich macht. Als Ergebnis der Evaluation basierend auf realen IoT-Geräte- 
nutzungsdaten vernetzter Waschmaschinen konnte die Verwendung eines Pro- 
grammextras als hypothetische Ursache für einen Fehlerfall identifiziert wer- 
den, so dass sich eine insgesamt positive Evaluation ergab. Im Anschluss an die 
Evaluation erfolgte abschließend eine Diskussion über das erarbeitete Konzept, 
welches insbesondere die Diskrepanz zwischen Korrelationen und tatsächli- 
chen Kausalitäten sowie die Grenzen des Konzepts thematisiert. 


Zukünftig gilt es, die Potenziale und Grenzen des Konzepts mithilfe der Do- 
mänenexpert:Innen des QM weiter auszuarbeiten, die identifizierten Hypo- 
thesen auf Kausalitäten zu überprüfen und in Verbesserungsmaßnahmen zu 
überführen. Zur Unterstützung bei der Schätzung von Kausalitäten bietet sich 
zudem die Verwendung von Double/Debiased Machine Learning an, wodurch 
Confounder in den Daten sichtbar werden. Nach dem ersten Erfolg in der 
Evaluation bietet sich die Betrachtung eines Mehrklassen-Problems zur ver- 
besserten Skalierbarkeit und die Einbeziehung von Produktionsdaten an. 


Literatur 


[1] J. Chatterjee, N. Dethlefs. „Temporal Causal Inference in Wind Turbine 
SCADA Data Using Deep Learning for Explainable AI“. In: Jour. of 
Phys.: Conf. Ser. 1618. 2020. 


302 Proc. 31. Workshop Computational Intelligence, Berlin, 25.-26.11.2021 


B. Steurtewagen, D. Van den Poel. „Adding interpretability to predictive 
maintenance by machine learning on sensor data“. In: Comp. & Chem. 
Eng. 152, 107381. 2021. 


R. Chen, F. Jankovic, N. Marinsek, et al. „Developing Measures 
of Cognitive Impairment in the Real World from Consumer-Grade 
Multimodal Sensor Streams“. In: Proc. 25th ACM SIGKDD Int. Conf. 
Knowl. Discov. Data Mining, S. 2145-2155. 2019. 


S.M. Lundberg, B. Nair, M.S. Vavilala, et al. „Explainable machine- 
learning predictions for the prevention of hypoxaemia during surgery“. 
In: Nat Biomed Eng 2, S. 749-760. 2018. 


S.M. Lauritsen, M. Kristensen, M.V.Olsen, et al. „Explainable artificial 
intelligence model to predict acute critical illness from electronic health 
records“. In: Nat Commun 11, 3852. 2020. 


C. Thornton, et al. „Auto-WEKA: Combined Selection and Hyperpara- 
meter Optimization of Classification Algorithms“. In: Proc. 19th ACM 
SIGKDD Int. Conf. Knowl. Discov. Data Mining, S. 847-855. 2013. 


F. Hutter, H.H. Hoos, K. Leyton-Brown. „Sequential modelbased 
optimization for general algorithm configuration“. In: International 
conference on learning and intelligent optimization, S. 507-523. 2011. 


L. Li, K. Jamieson, G. DeSalvo, et al. „Hyperband: A novel bandit-based 
approach to hyperparameter optimization“. In: The Journal of Machine 
Learning Research 18.1, S. 6765-6816. 2017. 


S. Falkner, A. Klein, F. Hutter. „BOHB: Robust and efficient hyperpara- 
meter optimization at scale“. In: International Conference on Machine 
Learning, S. 1437-1446. 2018. 


F. Mohr, M. Wever, E. Hüllermeier. „ML-Plan: Automated machine 
learning via hierarchical planning“. In: Machine Learning 107, S. 
1495-1515. 2018. 


B. Zoph, Q.V. Le. „Neural architecture search with reinforcement 
learning“. In: ICLR 2017. 


Proc. 31. Workshop Computational Intelligence, Berlin, 25.-26.11.2021 303 


[12] 


[13] 


[14] 


[15] 


[16] 


[21] 


[22] 


[23] 


C. Molnar. „Interpretable machine learning. A Guide for Making Black 
Box Models Explainable“. 2019. 


E. Štrumbelj, I. Kononenko. „Explaining prediction models and indivi- 
dual predictions with feature contributions“. In: Knowl. and info. sys. 
41.3, S. 647-665. 2014. 


S.M. Lundberg, L. Su-In. „A Unified Approach to Interpreting Model 
Predictions“. In: Adv. Neural Inf. Process Syst. 30, S. 4765-4774. 2017. 


M.T. Ribeiro, S. Singh, C. Guestrin. „Why should I trust you?: 
Explaining the predictions of any classifier“. In: Proc. 22nd ACM 
SIGKDD Int. Conf. Knowl. Discov. Data Mining. 2016. 


S.M. Lundberg, E.G. Gabriel, L. Su-In, et al. „From local explanations 
to global understanding with explainable AI for trees“. In Nature 
Machine Intelligence volume 2, S. 56-67. 2020. 


D. Janzing, et al. „Feature relevance quantification in explainable AI: A 
causal problem“. In: Int. Conf. on AI. and Stat., S. 2907-2916. 2020 


Birolini, Alessandro. „Reliability engineering“ Springer Berlin. 2017. 


Databricks AutoML. URL: https://databricks.com/product/automl. 
[Zugriff am: 01.09.2021]. 


L. Breiman. „Random Forests“. In: Machine Learning 45, S. 5-32. 
2001. 


T. Chen, C. Guestrin. „"Xgboost: A scalable tree boosting system“. In: 
Proc. 22nd ACM SIGKDD Int. Conf. Knowl. Discov. Data Mining. 2016. 


G. Ke, Q. Meng, et al. „LightGBM: A Highly Efficient Gradient 
Boosting Decision Tree“. In: Adv. Neural Inf. Process Syst. 30, S 3149- 
3157. 2017. 


M. Wever, A. Tornede, F. Mohr, E. Hüllermeier. ,,AutoML for Multi- 
Label Classification: Overview and Empirical Evaluation“. In: JEEE 
Transactions on Pattern Analysis & Machine Intelligence. 2021. 


304 


Proc. 31. Workshop Computational Intelligence, Berlin, 25.-26.11.2021 


[24] T. Miller. „Explanation in artificial intelligence: Insights from the social 
sciences“. In: Artificial Intelligence 267, S. 1-38. 2019. 


[25] N.V. Chawla, K.W. Bowyer, L. O.Hall, W.P. Kegelmeyer. „SMOTE: 
synthetic minority over-sampling technique“. In: Journal of artificial 
intelligence research, S. 321-357. 2002. 


[26] M. Christ, A.W. Kempa-Liehr, M. Feindt. „Distributed and parallel time 
series feature extraction for industrial big data applications“. arXiv 
preprint arXiv: 1610.07717. 2016. 


[27] D. Chicco, G. Jurman. „The advantages of the Matthews correlation 
coefficient (MCC) over Fl score and accuracy in binary classification 
evaluation“. In: BMC genomics 21.1, S. 1-13. 2020. 


Proc. 31. Workshop Computational Intelligence, Berlin, 25.-26.11.2021 305 


Dieser Tagungsband enthält die Beiträge des 31. Workshops „Computational Intelligence“ 
des Fachausschusses 5.14 der VDI/VDE-Gesellschaft für Mess- und Automatisierungstech- 
nik (GMA) und der Fachgruppe „Fuzzy-Systeme und Soft-Computing“ der Gesellschaft für 
Informatik (Gl), der vom 25. - 26.11.2021 in Berlin stattfindet. 


Der GMA-Fachausschuss 5.14 „Computational Intelligence“ entstand 2005 aus den bis- 
herigen Fachausschüssen „Neuronale Netze und Evolutionäre Algorithmen“ (FA 5.21) so- 
wie „Fuzzy Control“ (FA 5.22). Der Workshop steht in der Tradition der bisherigen Fuzzy- 
Workshops, hat aber seinen Fokus in den letzten Jahren schrittweise erweitert. 


Die Schwerpunkte sind Methoden, Anwendungen und Tools für 

o Fuzzy-Systeme, 

o Künstliche Neuronale Netze, 

o Evolutionare Algorithmen und 

o Data-Mining-Verfahren 

sowie der Methodenvergleich anhand von industriellen und Benchmark-Problemen. 


Die Ergebnisse werden von Teilnehmern aus Hochschulen, Forschungseinrichtungen und 
der Industrie in einer offenen Atmosphäre intensiv diskutiert. Dabei ist es gute Tradition, 
auch neue Ansätze und Ideen bereits in einem frühen Entwicklungsstadium vorzustellen, 
in dem sie noch nicht vollständig ausgereift sind. 


ISBN 978-3-7315-1131-1 


I 


9:18 


3 


731511 


Gedruckt auf FSC-zertifiziertem Papier 


